統計とビッグデータ link-function

10

違いは何ですかロジットとプロビットモデルは？ここで、ロジスティック回帰を使用するタイミングと、Probitを使用するタイミングを知りたいと思っています。 Rを使用して定義している文献があれば、それも参考になります。

299 r generalized-linear-model logistic probit link-function

4

「リンク関数」と「標準リンク関数」という用語の違いは何ですか？また、一方を他方より使用する（理論的な）利点はありますか？たとえば、バイナリ応答変数は、logitやprobitなどの多くのリンク関数を使用してモデル化できます。ただし、ここでのロジットは「標準的な」リンク関数と見なされます。

65 logistic generalized-linear-model link-function

4

ログ変換された応答変数のLMとGLMの選択

一般化線形モデル（GLM）対線形モデル（LM）を使用する背後にある哲学を理解しようとしています。以下にサンプルデータセットを作成しました。 log(y)=x+εlog⁡(y)=x+ε\log(y) = x + \varepsilon この例には、yの大きさの関数としての誤差がないため、対数変換されたyの線形モデルが最適であると想定します。以下の例では、これは実際にそうです（私は思う）-ログ変換されたデータのLMのAICが最も低いからです。対数リンク関数を使用したガンマ分布GLMのAICは、より低い二乗和（SS）を持ちますが、自由度を追加するとAICがわずかに高くなります。ガウス分布のAICが非常に高いことに驚かされました（SSはモデルの中で最低ですが）。εε\varepsilonyyy GLMモデルにアプローチするタイミングについてアドバイスをもらいたいと思います。つまり、LMモデルの近似残差で、別の分布がより適切であることを確認する必要があるのでしょうか。また、適切なディストリビューションファミリを選択するには、どのように進める必要がありますか。あなたの助けに前もって感謝します。 [編集]：対数変換線形モデルのSSが対数リンク機能を備えたGLMモデルに匹敵するように、要約統計を調整しました。統計のグラフが表示されます。例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- "LM" assign(mod.name, lm(y …

55 r generalized-linear-model linear-model gamma-distribution link-function

2

一般化線形モデルのリンク関数の目的

一般化線形モデルのコンポーネントとしてのリンク関数の目的は何ですか？なぜ必要なのですか？ウィキペディアの状態：リンク関数のドメインを分布関数の平均の範囲に一致させると便利ですこれを行う利点は何ですか？

35 regression generalized-linear-model link-function irls

1

非線形モデルと一般化線形モデル：ロジスティック、ポアソンなどの回帰をどのように参照しますか？

統計学者の意見を聞きたいセマンティクスについて質問があります。ロジスティック、ポアソンなどのモデルは、一般化線形モデルの傘下にあることがわかっています。モデルにはパラメーターの非線形関数が含まれており、適切なリンク関数を使用して線形モデルフレームワークを使用してモデル化することができます。ロジスティック回帰などの状況を次のように考えて（教えますか？）パラメーターの形式が与えられた非線形モデルリンクが私たちを線形モデルフレームワークに変換するため、線形モデル同時に（1）と（2）：非線形モデルとして「開始」されますが、線形モデルと考えることができるような方法で動作する可能性があります私は実際の世論調査を設定することができます...

23 logistic generalized-linear-model poisson-regression nonlinear link-function

4

エッジケースの精度と再現率の正しい値は何ですか？

精度は次のように定義されます： p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0？リコールに関する同じ質問： r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS：不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

5

統計学者は、植物を水に浸すことができないと考えていますか、それとも曲線回帰に間違った検索用語を使用しているだけですか？

私は、線形回帰とGLMについて読んほとんどすべてがこれに沸く：の非増加もしくは非減少関数であると、パラメータあなたです仮説を推定し、テストします。を一次関数にするために、多数のリンク関数とと変換があります。f （x 、β ）xy= f（x 、β）y=f(x,β)y = f(x,\beta)f（x 、β）f(x,β)f(x,\beta)バツxxY 、X 、Y 、F （X 、β ）ββ\betayyyバツxxyyyf（x 、β）f(x,β)f(x,\beta) ここで、非増加/非減少の要件を削除すると、パラメトリック線形モデルを近似するための2つの選択肢（trig関数と多項式）しかわかりません。どちらも、予測された各とセット全体の間に人為的な依存関係を作成し、データが実際に循環プロセスまたは多項式プロセスによって生成されると信じる事前の理由がない限り、非常に非ロバストな適合にします。y Xf（x 、β）f(x,β)f(x,\beta)yyyバツXX これはある種の難解なエッジケースではありません。これは、実際の常識的な関係であり、水と作物の収穫量（プロットが水面下で十分に深くなると、作物の収穫量は減少し始めます）、または朝食で消費されるカロリーと数学のクイズのパフォーマンス、または工場の労働者の数との関係ですそして、それらが生成するウィジェットの数...要するに、線形モデルが使用されるほとんどすべての実際のケースですが、データが十分な範囲をカバーしており、収益が減少してから負の収益になります。「凹」、「凸」、「曲線」、「非単調」、「バスタブ」という用語を探してみましたが、他にいくつあるか忘れています。関連する質問はほとんどなく、使用可能な回答はさらに少なくなります。したがって、実際には、次のデータがある場合（Rコード、yは連続変数xと離散変数グループの関数です）： updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53), x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23), group=factor(rep(c('A','B'),c(81,110)))); plot(y~x,updown,subset=x<500,col=group); 最初にBox-Cox変換を試して、それが機械的な意味をなすかどうかを確認し、それができない場合は、非線形最小二乗モデルをロジスティックまたは漸近リンク関数に適合させることができます。したがって、完全なデータセットが次のようになっていることがわかったときに、パラメトリックモデルを完全に放棄し、スプラインなどのブラックボックスメソッドにフォールバックする必要があるのはなぜですか？ plot(y~x,updown,col=group); 私の質問は：このクラスの機能的関係を表すリンク関数を見つけるには、どの用語を検索する必要がありますか？またはこのクラスの機能的関係へのリンク機能を設計する方法、または現在単調な応答のみを目的とする既存の関係を拡張する方法を習得するには、何を読んで検索する必要がありますか？または一体、このタイプの質問に最も適切なStackExchangeタグですら！

18 generalized-linear-model nonlinear-regression link-function

3

使用するglmファミリを決定する方法は？

いくつかの異なる収集手法を比較しようとしている魚の密度データがあり、データには多くのゼロがあり、ヒストグラムはポアソン分布に適しているように見えますが、密度としては整数データではありません。私はGLMに比較的不慣れで、使用するディストリビューションをどのように判断するかをオンラインで探していましたが、この決定に役立つリソースを見つけることができませんでした。データのサンプルヒストグラムは次のようになります。 GLMに使用する適切なファミリを決定する方法についてはわかりません。誰かがアドバイスをしたり、私がチェックアウトするリソースを私に提供できるなら、それは素晴らしいでしょう。

17 regression distributions generalized-linear-model link-function

4

ロジット関数は、バイナリデータの回帰モデリングに常に最適ですか？

私はこの問題について考えてきました。バイナリデータをモデル化するための通常のロジスティック関数は次のとおりですしかしであるロジット関数は、S字カーブ、データをモデル化するため、常に最良のですか？たぶん、あなたはあなたのデータは、通常のS字カーブが、ドメインの曲線の異なる種類従わないと信じるに足る理由持っている（0、1）。log(p1−p)=β0+β1X1+β2X2+…log⁡(p1−p)=β0+β1X1+β2X2+… \log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X_1+\beta_2X_2+\ldots (0,1)(0,1)(0,1) これに関する研究はありますか？プロビット関数または類似のものとしてモデル化できますが、それがまったく別のものである場合はどうでしょうか？これにより、効果をより正確に推定できますか？ただ考えただけで、これに関する研究はあるのだろうか。

15 logistic references link-function

2

GLM：配布およびリンク機能の選択の検証

ガウス分布と対数リンク関数を採用した一般化線形モデルがあります。モデルをフィッティングした後、残差をチェックします：QQプロット、残差対予測値、残差のヒストグラム（十分な注意が必要であることを認める）。すべてがよさそうだ。これは、（私にとって）ガウス分布の選択が非常に合理的だったことを示唆しているようです。または、少なくとも、残差がモデルで使用した分布と一致していること。 Q1：配布の選択を検証することを述べるのは遠すぎますか？応答変数は常に正であるため、ログリンク関数を選択しましたが、それが適切な選択であることを何らかの確認が必要です。 Q2：リンク関数の選択をサポートできる、分布の選択の残差をチェックするようなテストはありますか？（リンク関数を選択することは、私には少しarbitrary意的であると思われます。私が見つけることができる唯一のガイドラインは、おそらく正当な理由のために、非常に曖昧で手ぶれです。）

14 regression generalized-linear-model link-function

1

GLMのMLEを見つけるためのIRLSメソッドの簡単で直感的な説明を提供できますか？

バックグラウンド： GLMのMLE推定に関するプリンストンのレビューをフォローしようとしています。私はMLE推定の基礎を理解：likelihood、score、観察し、期待Fisher informationとFisher scoring技術。そして、私はMLE推定で単純な線形回帰を正当化する方法を知っています。質問：このメソッドの最初の行すら理解できません:( 次のように定義された作業変数の背後にある直観は何ですか？ziz私z_i zi=η^i+(yi−μ^i)dηidμizi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} なぜβを推定するために代わりに使用されるのですか？yiyiy_iββ\beta そしてresponse/link function、とμの間の接続であるとの関係は何ですかηη\etaμμ\mu 誰もが簡単な説明をしているか、これについてより基本的なレベルのテキストに私を導くことができるならば、私は感謝するでしょう。

12 regression generalized-linear-model maximum-likelihood link-function irls

2

ポアソン回帰のログリンクとIDリンクの長所と短所

私は私のモデルで比較する（との差をとる）の最終目標を持つ2つの因子レベル間の予測の平均数をポアソン回帰しております μ 1 - μ 2μ^1- μ^2μ^1−μ^2\hat{\mu}_1-\hat{\mu}_2、他のモデルの共変量を保持しながら、（すべてのバイナリであります）絶え間ない。ログリンクとIDリンクのどちらを使用するかについて、誰かが実際的なアドバイスを提供できるかどうか疑問に思っていました。差を比較するという私の目標を考えると、ポアソン回帰におけるこれら2つの異なるリンク関数の長所と短所は何ですか？また、ロジスティック/二項回帰（ロジットリンクまたはIDリンクを使用）についても同じ目標を念頭に置いて、2つの因子レベル間の比率の違いを比較し、同様のアドバイスが必要です。この問題に関連するいくつかの投稿を読んだことがありますが、なぜか、いつ他のリンクよりも1つのリンクを選択し、賛否両論がどうなるかを説明するものはありません。よろしくお願いします！更新：また、特定のリンク機能を使用する主な目的は、可能な予測値の範囲範囲を平均応答の範囲内に制限することであることを認識しています（たとえば、ロジスティックの場合、範囲は0から1の間で、リンク、予測は正の数に制限されます）。だから、私が求めているのは、ロジスティック/二項回帰にアイデンティティリンクを使用し、結果が範囲（0,1）内にある場合、実際にロジスティックリンク関数を使用する必要があるかどうかです単純に識別リンクを使用するように考えられますか？

12 logistic poisson-regression link-function

2

異なるリンク機能を持つGLMモデルの比較に関する問題

共変量と分布族の同じセットが与えられた場合、異なるリンク関数を持つモデルをどのように比較できますか？ここでの正しい答えは「AIC / BIC」だと思いますが、100％確信はありません。異なるリンクがある場合、ネストされたモデルを持つことは可能ですか？

12 generalized-linear-model aic link-function

1

GLMでの正準リンク関数の計算

正準リンク関数は、指数関数ファミリーの自然パラメーターに由来すると考えました。ファミリー場合、は正準リンク関数です。取るベルヌーイ分布の一例として、我々はつまり、正規リンク関数g(⋅)g(⋅)g(\cdot)f(y,θ,ψ)=exp{yθ−b(θ)a(ψ)−c(y,ψ)}f(y,θ,ψ)=exp⁡{yθ−b(θ)a(ψ)−c(y,ψ)} f(y,\theta,\psi)=\exp\left\{\frac{y\theta-b(\theta)}{a(\psi)}-c(y,\psi)\right\} θ=θ(μ)θ=θ(μ)\theta=\theta(\mu)P(Y=y)=μy(1−μ)1−y=exp{ylogμ1−μ+log(1−μ)}P(Y=y)=μy(1−μ)1−y=exp⁡{ylog⁡μ1−μ+log⁡(1−μ)} P(Y=y)=\mu^{y}(1-\mu)^{1-y}=\exp\left\{y\log\frac{\mu}{1-\mu}+\log{(1-\mu)}\right\} g(μ)=logμ1−μg(μ)=log⁡μ1−μg(\mu)=\log\frac{\mu}{1-\mu} しかし、このスライドを見ると、 g '（\ mu）= \ frac {1} {V（\ mu）} であると主張して g′(μ)=1V(μ)g′(μ)=1V(μ) g'(\mu)=\frac{1}{V(\mu)} います。この特定の分布（およびポアソン分布などの他のいくつかの分布）は簡単に確認できます一般的なケースの等価性がわかりません。誰かがヒントを与えることはできますか？ありがとう〜

12 generalized-linear-model link-function

3

母集団のr二乗変化の信頼区間を取得する方法

簡単な例のために、2つの線形回帰モデルがあると仮定しますモデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式があるモデル1及びρ 2 （2 ）増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 （2 ） - ρ 2 （1 ）ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子（たとえば、5および30）に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J （2 ） - R 2 次元J （1 ）推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問されたの合理的な推定量Δは、ρ …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

タグ付けされた質問 「link-function」

タグ付けされた質問「link-function」