Rのポアソンデータの対数対平方根リンク

8

現在、RのGLMを使用して、エイズによる死亡のモデル化に取り組んでいます。ポアソンデータのリンク関数には、対数と平方根の2つのオプションがあることを知っています。

平方根はばらつきの問題を解決するのに対し、対数は曲線をまっすぐにする必要があることを知っています。しかし、どのリンクがデータに適しているかを実際にテストするにはどうすればよいですか？

— エリー
ソース

2

おそらく関心がある：カウントデータに平方根変換が推奨されるのはなぜですか？

— ガン-モニカの復活

6

GLMでリンク関数を使用して、データ変換の効果を混乱させています。

$E(Y|x)$ $\exp(a+bx)$

ただし、GLMでは、データの変換にリンク機能は使用されません。

GLM自体は、ポアソンの分散が平均とともに増加するという事実を考慮に入れています。（ポアソン仮定が適切である限り）あなたはそれについて何もする必要はありません。

予測子と応答の間の関係を説明するために残された唯一のもの。リンク関数は、応答の条件付き平均と予測子との間の関係の形式を指定します。

sqrtリンクは、最小二乗回帰を適用するために平方根変換が使用された古い分析と比較する目的で主に使用されます。平方根リンクを使用することで、同じ関数形式のモデルに適合できますが、パラメーターの完全なML推定が可能です。

関係を線形化したという事実のためにログの使用を検討していた場合、それは間違いなく使用すべきリンクです。（一般的に、ログリンクも解釈が容易です。）

あなたが本当に両方のリンク機能を楽しませて、それらの間で選択したいなら、あなたはAICを比較することができます。または、偏差を比較することもできます（もちろん他の選択肢もありますが、両方とも既に要約出力に提供されており、「適合度」を測定します。どちらを見ても、同じ結論につながるはずです）。ただし、ログリンクが不十分である、または平方根リンクを楽しませる他の理由があるという明確な指示がない限り、私は単にログリンクを実行します。

リンク関数から選択するためにデータを使用する場合、同じデータポイントから推定された係数の後続の仮説検定では（とりわけ）公称プロパティがなくなります（標準誤差が小さすぎる、信頼区間が狭すぎる）、p値は同じ意味ではありません...）

（ちなみに、Rのポアソンのリンク関数オプションは、アイデンティティリンクもあるので、これらは2つだけではありません。これは、準ポアソン近似に移動した場合に何ができるかを考慮していません。）

警告：経時的に変数をモデル化する場合は、（a）カウントに時間依存がある可能性が高いことを覚えておく必要があります。これは、GLMの独立性の仮定を無効にするような方法です（たとえば、標準エラーは簡単に発生する可能性があります）間違っている）; （b）スプリアス回帰の概念は、通常の回帰と同じようにポアソン回帰に容易に適用できます（そのため、パラメーター推定値も簡単に誤解を招く可能性があります）。

私は、これは潜在的にあなたの結論に深刻な脅威であるので、あなたのシリーズは、静止なることを疑う-しかし、スプリアス回帰でも、静止シリーズ（それほど広く理解されていない点に問題となることが、私は中にそのための参照を与える。この答え答えは、単純なコイン投げの例を非定常場合に相関して現象を示しています）。

— Glen_b-モニカの復活
ソース

1

応答に指定されたポアソン分布を使用してGLiMを近似している場合、応答の条件付き分散を安定化する必要はありません。これは自動的に処理されます。ポアソンGLiMは、通常の線形（ガウス）回帰モデルが行うという意味で、一定の分散を想定していません。

リンク関数の効果は、元のデータ空間の回帰直線の形状を変更し、それによって係数の解釈を変更することです。形状/曲率が適切かどうか心配な場合は、いつでもスプラインを使用できます。したがって、係数の解釈可能性に基づいて、使用するリンクを選択できます。私の意見では、通常はログリンクが優先されます。

スプライン関数を使用せずに共変量のみを使用したい場合、およびデータに適合する形状を特定したい場合は、交差検定を使用して、サンプル外の予測誤差を調べることができます。

（ポアソンではなく）二項GLiMのコンテキストで書かれていますが、ここで私の答えを読むことに興味があるかもしれません：ロジットモデルとプロビットモデルの違い。

— gung-モニカの回復
ソース