タグ付けされた質問 「generalized-linear-model」

「リンク関数」を介して非線形関係を可能にし、応答の分散を予測値に依存させることができる線形回帰の一般化。(通常の線形モデルを一般的な共分散構造と多変量応答に拡張する「一般線形モデル」と混同しないでください。)

1
カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合
GLMフレームワーク内で、どの回帰タイプ(幾何、ポアソン、負の二項)をカウントデータと共に使用するのが適切な場合、自分でレイアウトしようとしています(8つのGLM分布のうち3つだけがカウントデータに使用されますが、負の二項分布とポアソン分布を中心に読みました)。 カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合 これまでのところ、次のロジックがあります:データをカウントしますか?はいの場合、平均と分散は等しくありませんか?はいの場合、負の二項回帰。いいえの場合、ポアソン回帰。ゼロインフレはありますか?はいの場合、ゼロ膨張ポアソンまたはゼロ膨張負の二項。 質問1いつ使用するかについて明確な指示がないようです。その決定を知らせる何かがありますか?私が理解していることから、ZIPに切り替えると、平均分散が等しいという仮定が緩和されるため、再びNBとかなり似たものになります。 質問2幾何学ファミリをこれに当てはめる場所、または回帰で幾何学ファミリを使用するかどうかを決定する際に、どのような種類の質問をデータに求めるべきですか? 質問3負の二項分布とポアソン分布を常に交換しているが、幾何学的ではない人がいるので、いつ使用するかについて明確に異なるものがあると推測しています。もしそうなら、それは何ですか? PS 議論のために人々がそれをコメント/微調整したい場合、私は現在の理解の図(編集可能)を(おそらくは簡略化して)作成しました。

2
family = GammaでGLMのパラメーターを解釈する方法
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 5年前に移行され ました。 ガンマ分布従属変数を持つGLMのパラメーターの解釈に関して質問があります。これは、ログリンクを使用してGLMに対してRが返すものです。 Call: glm(formula = income ~ height + age + educat + married + sex + language + highschool, family = Gamma(link = log), data = fakesoep) Deviance Residuals: Min 1Q Median 3Q Max -1.47399 -0.31490 -0.05961 0.18374 1.94176 Coefficients: Estimate Std. Error t value Pr(>|t|) …

3
ポアソン回帰対ログカウント最小二乗回帰?
ポアソン回帰は、ログリンク機能を備えたGLMです。 非正規分布のカウントデータをモデル化する別の方法は、ログ(または、log(1 + count)を処理して0を処理する)を使用して前処理することです。対数応答で最小二乗回帰を行う場合、ポアソン回帰に関連していますか?同様の現象を処理できますか?

1
GLMの準ポアソンが負の二項分布の特殊なケースとして扱われないのはなぜですか?
私は、一般化線形モデルを、過剰分散の場合とそうでない場合のあるカウントデータのセットに適合させようとしています。ここで適用される2つの正準分布は、ポアソンおよび負の二項(Negbin)、EVおよび分散ですμμ\mu VRP= μVarP=μVar_P = \mu VRNB= μ + μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} これは、それぞれglm(..,family=poisson)とを使用してRに適合させることができますglm.nb(...)。quasipoisson私の理解では同じEVと分散を持つ調整されたポアソンである家族もあります VRQ P= φ μVarQP=ϕμVar_{QP} = \phi\mu、 すなわち、ポアソンとネビンの間のどこかに落ちます。準ポアソンファミリの主な問題は、それに対応する尤度がないことであり、したがって、非常に有用な統計的検定と適合度測定(AIC、LRなど)の多くが利用できません。 QPとNegbinの分散を比較すると、置くことでそれらを等化できることに気付くかもしれません。このロジックを続けると、準ポアソン分布をNegbinの特殊なケースとして表現することができます。ϕ = 1 + μθϕ=1+μθ\phi = 1 + \frac{\mu}{\theta} Q P(μ 、ϕ )= NB(μ 、θ = μϕ − 1)QP(μ、ϕ)=NB(μ、θ=μϕ−1)QP\,(\mu,\phi) = NB\,(\mu,\theta = \frac{\mu}{\phi-1})、 すなわち、線形に依存する持つNegbin です。上記の式に従ってランダムな数列を生成し、それを当てはめることにより、このアイデアを検証しようとしました:μθθ\thetaμμ\muglm #fix parameters phi = …

3
glm(R)で適合度を計算する方法
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 6年前に移行され ました。 glm関数を実行すると、次の結果が得られます。 次の値をどのように解釈できますか? ヌル逸脱 残留偏差 AIC 彼らはフィットの良さに関係がありますか?これらの結果から、R平方またはその他の尺度などの適合度の尺度を計算できますか? Call: glm(formula = tmpData$Y ~ tmpData$X1 + tmpData$X2 + tmpData$X3 + as.numeric(tmpData$X4) + tmpData$X5 + tmpData$X6 + tmpData$X7) Deviance Residuals: Min 1Q Median 3Q Max -0.52628 -0.24781 -0.02916 0.25581 0.48509 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept -1.305e-01 1.391e-01 …

1
ベイジアンネットワークからニューラルネットワークへ:多変量回帰を多出力ネットワークに変換する方法
私はベイジアン階層線形モデルを扱っています。ここではそれを説明するネットワークです。 は、スーパーマーケットでの製品の毎日の販売を表します(観測)。YYY は、価格、プロモーション、曜日、天気、休日を含む、回帰変数の既知のマトリックスです。XXX 私は、各製品のバイナリ変数のベクトル一検討最も問題とさせる、各製品、未知の潜在在庫レベルである 1つのを示す欠品や製品の利用できないようにします。 理論的には不明であったとしても、各製品のHMMを使用して推定したため、Xとして知られていると見なされます。適切な形式のためにシェーディングを解除することにしました。SSS111 は、単一の製品の混合効果パラメーターであり、考慮される混合効果は製品価格、プロモーション、在庫切れです。ηη\eta は固定回帰係数のベクトルで、 b 1と b 2は混合効果係数のベクトルです。1つのグループはブランドを示し、もう1つのグループはフレーバーを示します(これは例であり、実際には多くのグループがありますが、ここではわかりやすくするために2つだけ報告しています)。ββ\betab1b1b_1b2b2b_2 、 Σ B 1及び ΣのB 2は、混合効果を超えるハイパーです。ΣηΣη\Sigma_{\eta}Σb1Σb1\Sigma_{b_1}Σb2Σb2\Sigma_{b_2} カウントデータがあるので、各製品の売り上げをリグレッサーに条件付きポアソン分布として扱うとしましょう(一部の製品では線形近似が成り立ち、他の製品ではゼロ膨張モデルが優れている場合でも)。そのような場合、私は製品を持っています(これはベイジアンモデル自体に興味がある人のためのものです、それが面白くないまたは些細ではない場合は質問にスキップしてください:)):YYY Ση∼IW(α0,γ0)Ση∼IW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σb1∼IW(α1,γ1)Σb1∼IW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) 、 α 0、γ 0、α 1、γ 1、α 2、γ 2知ら。Σb2∼IW(α2,γ2)Σb2∼IW(α2,γ2)\Sigma_{b_2} \sim IW(\alpha_2,\gamma_2)α0,γ0,α1,γ1,α2,γ2α0,γ0,α1,γ1,α2,γ2\alpha_0,\gamma_0,\alpha_1,\gamma_1,\alpha_2,\gamma_2 η∼N(0,Ση)η∼N(0,Ση)\eta \sim N(\mathbf{0},\Sigma_{\eta}) b1∼N(0,Σb1)b1∼N(0,Σb1)b_1 \sim N(\mathbf{0},\Sigma_{b_1}) b2∼N(0,Σb2)b2∼N(0,Σb2)b_2 \sim N(\mathbf{0},\Sigma_{b_2}) 、 Σはβ知られています。β∼N(0,Σβ)β∼N(0,Σβ)\beta \sim N(\mathbf{0},\Sigma_{\beta})ΣβΣβ\Sigma_{\beta} 、λtijk=β∗Xti+ηi∗Xppsti+b1j∗Ztj+b2kZtkλtijk=β∗Xti+ηi∗Xppsti+b1j∗Ztj+b2kZtk\lambda _{tijk} …

1
ロジスティック回帰が完全な分離の場合に機能しない理由について直感的な説明はありますか?そして、なぜ正規化を追加すると修正されるのでしょうか?
ロジスティック回帰における完全な分離について多くの良い議論があります。以下のような、R内のロジスティック回帰は、完全な分離(ハウク-ドナー現象)をもたらしました。それで?そして、ロジスティック回帰モデルは収束しません。 個人的には、なぜそれが問題になるのか、なぜ正則化を追加するとそれが修正されるのか、直観的ではないと感じています。私はいくつかのアニメーションを作成し、それが役立つと思います。そこで、彼の質問を投稿し、自分で答えてコミュニティと共有してください。

4
ベータ回帰で0,1値を処理する
[0,1]にいくつかのデータがあり、ベータ回帰で分析したいと思います。もちろん、0,1値に対応するために何かをする必要があります。モデルに合わせてデータを変更するのは嫌いです。また、この場合、0が非常に小さい正の値であると考える必要があると考えているため、ゼロと1のインフレが良い考えだとは思いません(しかし、どの値が適切であるかを正確に言いたくありません。 .001や.999などの小さな値を選択し、ベータの累積distを使用してモデルに適合させることになると思います。したがって、観測y_iの場合、対数尤度LL_iは if y_i < .001 LL+=log(cumd_beta(.001)) else if y_i>.999 LL+=log(1.0-cum_beta(.999)) else LL+=log(beta_density(y_i)) このモデルで私が気に入っているのは、ベータ回帰モデルが有効な場合、このモデルも有効ですが、極値に対する感度が少し削除されることです。しかし、これは非常に自然なアプローチであるように思えるので、なぜ文献に明白な参照が見つからないのか疑問に思います。だから私の質問は、データを変更するのではなく、なぜモデルを変更しないのですか。データを変更すると結果にバイアスがかかります(元のモデルが有効であるという仮定に基づいて)が、極値をビニングしてモデルを変更しても結果にバイアスはかかりません。 おそらく私が見落としている問題がありますか?

2
比率データの変換:arcsin平方根では不十分な場合
パーセンテージ/プロポーションデータのアークサイン平方根変換の(より強力な)代替手段はありますか?私が現在取り組んでいるデータセットでは、この変換を適用した後、顕著な不均一分散性が残っています。つまり、残差対適合値のプロットは依然としてひし形です。 コメントに対応するために編集:データは、10%の倍数で寄付金の0-100%を投資する可能性のある実験参加者による投資決定です。また、順序ロジスティック回帰を使用してこれらのデータを調べましたが、有効なglmが生成するものを確認したいと思います。加えて、arcsin平方根は私の分野ですべてのサイズに対応するソリューションとして使用されているようで、採用されている代替手段に出会ったことがないため、答えは将来の作業に役立つことがわかりました。

3
GLMで傍受用語​​を解釈する方法は?
私はRを使用しており、Binomialリンク付きのGLMでデータを分析しています。 出力テーブルのインターセプトの意味を知りたいです。私のモデルの1つの切片は大きく異なりますが、変数は違いません。これは何を意味するのでしょうか? インターセプトとは何ですか。私は自分自身を混乱させているだけでなく、インターネットを検索したかどうかはわかりません。ただこれだけで、それに気づいてください...またはしないでください。 助けてください、とてもイライラした学生 glm(formula = attacked_excluding_app ~ treatment, family = binomial, data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.3548 0.3593 0.3593 0.3593 0.3593 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.708 1.033 2.622 0.00874 ** treatmentshiny_non-shiny 0.000 1.461 0.000 1.00000 (Dispersion parameter for binomial family …

1
Rのglmでの「NA」値の処理方法
データテーブルT1があり、これには約1000個の変数(V1)と約2億個のデータポイントが含まれています。データはまばらで、ほとんどのエントリはNAです。各データポイントには、他と区別するための一意のIDと日付のペアがあります。 別の変数セット(V2)を含む別のテーブルT2があります。このテーブルには、T2のエントリを一意に識別するIDと日付のペアもあります。 T1のデータを使用して、T2の変数の値を予測できると思われます。 これを証明するために、Rに「glm」モデルを適用し、T1の変数に依存するT2の変数を本当に見つけることができるかどうかを確認することを考えました。 T2の各変数について、同じidと日付のペアを持つT1のすべてのデータを引き出し始め、テスト変数のいくつかについて、はるかに小さい〜50Kデータポイントになりました。 glmの適用で今直面している問題は次のとおりです。 場合によっては、「フィットが見つかりません」というエラーと「glm.fit:アルゴリズムが収束しませんでした」という警告が表示されます。なぜ表示されるのか分かりませんか? NAはglmでどのように扱われますか?最初に「NA」を含むすべてのレコードを削除してから、フィッティングを実行しますか? 最初にすべてのNAを削除してから「glm」を呼び出すのは良い戦略ですか?それらのほとんどがNAであるため、これによりデータポイントが大幅に削減される可能性があることを恐れています。 係数の計算に使用される方法。出力がどのように計算されるかを議論するウェブサイト、論文、または本を見つけることができませんでした。 「NA」を使用して、または使用せずにglmをテストし、データをフィッティングする際にNAが考慮される点について、difftの回答を見つけました。 例1: > tmpData x1 x2 x3 Y 1 1 1 1 3 2 1 0 4 5 3 1 2 3 6 4 0 3 1 4 Call: glm(formula = as.formula(paste(dep, " ~ ", paste(xn, collapse = "+"))), na.action …

2
GLMの特定のファミリの使用を検証できる診断はどれですか?
これはとても初歩的なように思えますが、私はこの時点で常に行き詰まります… 私が扱うデータのほとんどは非正常であり、ほとんどの分析はGLM構造に基づいています。現在の分析では、「歩行速度」(メートル/分)の応答変数があります。OLSを使用できないことは簡単にわかりますが、どの家族(ガンマ、ワイブルなど)が適切かを判断するのは非常に不確実です! Stataを使用して、残差と不均一分散、残差と適合値などの診断を調べます。 カウントデータはレート(例:発生率)の形式を取り、ガンマ(過剰分散離散負二項モデルのアナログ)を使用できることを認識していますが、「喫煙銃」で「はい、正しい」と言いたいだけです。家族。これを行うには、標準化された残差と適合値を比較するのが唯一の最善の方法ですか?混合モデルを使用してデータの階層を説明したいのですが、最初に、どの変数が私の応答変数を最もよく説明しているかを整理する必要があります。 任意の助けに感謝します。Stata言語は特に高く評価されています!

1
適合度と線形回帰またはポアソンを選択するモデル
私の研究では、3つの大きな医薬品とイノベーションのケーススタディである2つの主なジレンマに関するアドバイスが必要です。年間の特許数は従属変数です。 私の質問は 良いモデルの最も重要な基準は何ですか?重要なことは何ですか?ほとんどまたはすべての変数が重要になるのでしょうか?「F STATISTIC」の問題ですか?「調整済みRの2乗」の値ですか? 第二に、研究に最適なモデルをどのように決定できますか?カウント変数(多分ポアソンカウント)である特許のほかに、資産収益率、研究開発予算、繰り返されるパートナー(バイナリ変数ではない%)、企業規模(従業員)などの説明変数があります。線形回帰またはポアソンを実行する必要がありますか?

4
異分散性に対処する最良の方法は?
不均一分散性が非常に明確な、近似値の関数での線形モデルの残差値のプロットがあります。しかし、この不均一分散性が私の線形モデルを無効にすることを理解している限り、今どのように進めるべきかはわかりません。(そうですか?) パッケージのrlm()関数を使用した堅牢な線形フィッティングを使用するのは、MASS不均一分散性に対して明らかに堅牢であるためです。 係数の標準誤差は不均一分散のために間違っているので、標準誤差を不均一分散に対してロバストになるように調整できますか?ここでスタックオーバーフローに投稿された方法を使用:ヘテロスケダスティクスによる回帰標準エラーを修正 私の問題に対処するために使用する最良の方法はどれですか?ソリューション2を使用すると、モデルの予測機能はまったく役に立ちませんか? Breusch-Pagan検定では、分散が一定ではないことが確認されました。 近似値の関数における私の残差は次のようになります。 (拡大版)

3
負の二項GLM対カウントデータのログ変換:タイプIエラー率の増加
あなたの何人かはこの素晴らしい論文を読んだかもしれません: O'Hara RB、Kotze DJ(2010)カウントデータをログ変換しません。生態学と進化の方法1:118–122。クリック。 私の研究分野(生態毒性学)では、再現性の低い実験を扱っており、GLMは広く使用されていません。そこで、O'Hara&Kotze(2010)と同様のシミュレーションを行いましたが、生態毒性データを模倣しました。 電力シミュレーション: 1つのコントロールグループ()と5つの治療グループ()を使用した要因計画のデータをシミュレートしました。治療1の存在量は対照()と同一であり、治療2-5の存在量は対照の存在量の半分()でした。シミュレーションでは、サンプルサイズ(3,6,9,12)とコントロールグループの量(2、4、8、...、1024)を変化させました。豊度は、固定分散パラメーター()を持つ負の二項分布から引き出されました。100のデータセットが生成され、負の二項GLMとガウスGLM +対数変換データを使用して分析されました。μ 1 - 5 μ 1 = μ C μ 2 - 5 = 0.5 μ C θ = 3.91μcμc\mu_cμ1 − 5μ1−5\mu_{1-5}μ1= μcμ1=μc\mu_1 = \mu_cμ2 − 5= 0.5 μcμ2−5=0.5μc\mu_{2-5} = 0.5 \mu_cθ = 3.91θ=3.91\theta = 3.91 結果は予想通りです。GLMのパワーは、特に多くの動物がサンプリングされていない場合に大きくなります。 コードはこちらです。 タイプIエラー: 次に、タイプ1のエラーを見ました。シミュレーションは上記のように行われましたが、すべてのグループは同じ量()。μc= μ1 − 5μc=μ1−5\mu_c …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.