使用するglmファミリを決定する方法は?


17

いくつかの異なる収集手法を比較しようとしている魚の密度データがあり、データには多くのゼロがあり、ヒストグラムはポアソン分布に適しているように見えますが、密度としては整数データではありません。私はGLMに比較的不慣れで、使用するディストリビューションをどのように判断するかをオンラインで探していましたが、この決定に役立つリソースを見つけることができませんでした。データのサンプルヒストグラムは次のようになります。サンプルヒストグラム

GLMに使用する適切なファミリを決定する方法についてはわかりません。誰かがアドバイスをしたり、私がチェックアウトするリソースを私に提供できるなら、それは素晴らしいでしょう。


1
「魚の密度」とは正確には何ですか?たとえば、湖の単位体積あたりの魚の数ですか?
gung-モニカの回復

単位面積あたりの魚の数です(この場合は平方メートル)。視覚的な調査ツールを使用したため、観測された魚の数をツールで調査した面積で割って計算します。ツールが非常に異なる面積を調査するため、ツール間で標準化するために密度を使用する必要がありました。そうでなければ、カウントデータを使用してポアソン分布に従うだけでした。
C.デニー

7
私のアドバイス-カウントデータに戻り、ログリンクのあるモデルのオフセットとして「面積」を使用します---しかし、ポアソンが非常にうまく適合するかどうかはわかりませんヒストグラムには、GLMがモデル化する条件付き分布ではなく、周辺分布のみが表示されます...いずれにしても、使用するビンが少なすぎます。ポアソンが十分に重く/ 0でスパイクしない場合、負の二項式が機能するか、ゼロ膨張またはハードルモデルが必要になる可能性があります
Glen_b -Reinstate Monica

私は毎日ポアソンモデリングを行っており、Glen_bのコメントは正解です。
ポール

2
補遺-ポアソンモデリングは、観測の単位(この場合、個々の魚を数えていると思いますか)が、ランダムにばらまかれた砂粒のように、観測フィールド全体に独立して分布している場合、理論的に十分に正当化されます。この仮定の下では、密度にいくらかの変動があるかもしれませんが、ある魚の位置は他の魚の位置について何も意味しません。しかし、魚は群れを成しているので、例えば学校に行って、その位置がもはや独立していないので、この仮定に実際には違反するかもしれないことに注意してください。
ポール

回答:


8

GLMファミリは、リンク関数と平均分散関係で構成されます。ポアソンGLMの場合、リンク関数はログであり、平均分散関係はアイデンティティです。ほとんどの統計ソフトウェアが提供する警告にもかかわらず、2つの変数間の関係が対数スケールで線形であり、分散が平均に従って増加する連続データの関係をモデル化することは完全に合理的です。

これは、本質的に、GLMでリンクおよび分散関数を選択する理由です。もちろん、このプロセスの背後にはいくつかの仮定があります。準尤度(を参照?quasipoisson)または堅牢な標準誤差(パッケージsandwichまたはを参照)を使用して、より堅牢なモデルを作成できますgee

データの多くの密度が0であることを正しく指摘しました。ポアソン確率モデルでは、データの0をときどきサンプリングすることが適切であるため、これらの観測値がレートの推定値に偏りをもたらすとは限りません。

GLMの背後にある仮定を調べるには、通常、ピアソンの残差を調べると役立ちます。これらは平均分散関係を説明し、これらの0などの特定の観測値が推定と結果に重大な影響を与えているかどうかを統計学者に示します。


22

一般化線形モデルは、線形予測子の観点から定義されています

η=Xβ

リンク関数 を介して渡されますg

g(E(Y|X))=η

従属変数と独立変数X = X 1X 2の間の関係をモデル化しますY。より正確には、 Xが与えられた Yの条件付き期待値モデル化しますX=X1,X2,,XkYX

E(Y|X)=μ=g1(η)

したがって、モデルは次のように確率論的に定義できます。

Y|Xf(μ,σ2)

ここで、指数族の確率分布です。最初に気づくのは、fYの分布ではないが、Y条件付きでそれに従うことですffYYX。この分布の選択は、Xの関係に関する知識(想定できること)に依存します。したがって、分布について読んでいるところはどこでも、条件付き分布です。YX

一方、実際には、予測モデルの構築に関心がある場合は、いくつかの異なる分布のテストに興味があり、最終的には、そのうちの1つが他の分布より正確な結果を与えることを学びます。理論的な考慮事項の点で最も「適切な」(例えば、理論ではポアソンを使用する必要がありますが、実際には標準線形回帰がデータに最適です)。


2

これはいくぶん広い質問であり、モデリングの方法を尋ねているので、それに関する本全体があります。たとえば、カウントデータを扱うときは、次のことを考慮してください。

ディストリビューションの選択に加えて、リンク機能を選択する必要があります。カウントデータを使用すると、ポアソン分布または負の二項分布、およびログリンク関数を試すことができます。ログリンクの理由は次のとおりです。適合度と線形回帰またはポアソンを選択するモデル パッチの面積が非常に異なる場合は、絶対値ではなく単位面積あたりのモデル数に、面積の対数をオフセットとして含める必要があります。カウント。カウントデータ回帰におけるオフセットの説明については、ポアソン回帰でオフセットを使用する場合」を。

EDIT 

この回答はもともと別の質問に投稿されたもので、この質問と統合されました。答えは一般的ですが、データセットの詳細と問題になっていない問題についてコメントしました。元の質問は次のリンクで見つけることができます: GLMの家族-適切な質問を選択するには?


質問の結合を解除することはできません、@ kjetil、開発者だけがそれを行うことができます(&彼らは本当に好きではありません)。ただし、元のQには引き続きアクセスできます。1つの可能性は、コンテンツを新しいQ(私が作成する)にコピーし、このAを新しいスレッドにコピーしてから、そのスレッドとしてそのスレッドを閉じることができるということです。それがおかしいアイデアなのか、それともトラブルに見合う価値があるのか​​を言うのは難しいですが、それは私にできることです。好みがありますか?
GUNG -復活モニカ

@gung:それを行うことができます。または、その質問の情報をここの回答にコピーすることもできます。たぶんそれが最高ですか?(編集履歴から見えるように編集できます)
kjetil b halvorsen

1
@kjetilbhalvorsenまず最初に、スレッドをマージするのは私の考えでしたが、スレッドはほとんど同じであり、両方とも良い答えが含まれていたため、混乱して申し訳ありません。私の最初の印象は、スレッドをマージしても害はないということでした。2番目の段落に「たとえば、カウントデータを処理するとき...」を単純に追加できますか あなたの答えは、一般的な「家族の選び方」にうまく答えています。質問ですので、多分それを一般的なスレッドに残す価値がありますか?
ティム

1
@Tim私はあなたが言うように編集します!
kjetil bハルヴォルセン

Let's try the edit. If you want me to repost the Q, ping me again. I'm going to dismiss the flag now.
gung - Reinstate Monica
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.