連続データをモデル化するときにポアソン分布はどのように機能し、情報の損失につながりますか?


20

同僚は、学位論文のいくつかの生物学的データを、いくつかの厄介な異分散性で分析しています(下図)。彼女は混合モデルで分析していますが、まだ残差に問題があります。

応答変数をログ変換すると、物事がクリーンアップされ、この質問へのフィードバックに基づいて、これは適切なアプローチのようです。ただし、元々、混合モデルで変換された変数を使用することには問題があると考えていました。Littell&Milliken(2006)SAS for Mixed Modelsでカウントデータを変換し、通常の線形混合モデルで分析することが不適切である理由を指摘していたステートメントを誤って解釈していたことがわかりました(完全な引用は以下) 。

残差も改善したアプローチは、ポアソン分布の一般化線形モデルを使用することでした。ポアソン分布は連続データのモデリングに使用でき(たとえば、この投稿で説明されているように)、statsパッケージで許可されますが、モデルが適合するときに何が起こっているのかわかりません。

基本的な計算がどのように行われているのかを理解するために、私の質問は次のとおりです:ポアソン分布を連続データに適合させると、1)データは最も近い整数に丸められますか?2)これは情報の損失をもたらします3)連続データにポアソンモデルを使用するのが適切な場合はいつですか?

Littel&Milliken 2006、pg 529 "[count]データの変換は逆効果になる可能性があります。たとえば、変換はランダムなモデル効果の分布やモデルの線形性を歪める可能性があります。結果として、変換されたデータを使用した混合モデルからの推論は非常に疑わしい。」

ここに画像の説明を入力してください


1
@Tomasのように、混合モデルの前に変数を変換してはならない理由はありません。このトピックについてはかなり読みました。Ramon and Littelの本があります....どのページを参照していますか?
ピーターフロム-モニカの復職

それは我々がPG 529上の文の誤解釈して判明
Nブラウワー

回答:


22

Huber / White / Sandwichの線形化された分散推定量を使用して、ポアソン回帰の継続的な肯定的な結果をかなり頻繁に推定しています。ただし、これは特に何もする理由ではないため、実際の参照をいくつか示します。

y

また、サントスシルバとテンレイロ(2006年)から、ポアソンが最高のショーで登場するいくつかの有望なシミュレーションの証拠があります。また、結果に多くのゼロがあるシミュレーションでもうまくいきます。また、独自のシミュレーションを簡単に実行して、これがスノーフレークケースで機能することを確信させることができます。

最後に、ログリンク機能とポアソンファミリでGLMを使用することもできます。これにより同一の結果が得られ、カウントデータのみのニージャーク反応が決まります。

ゲートなしリンクのない参照:

Gourieroux、C.、A。MonfortおよびA. Trognon(1984)。「疑似最尤法:ポアソンモデルへの応用、」エコノメトリカ、52、701から720まで。


2
参照してくださいStataの上、この素敵なブログのエントリはビル・グールドによって書かれたブログ- blog.stata.com/2011/08/22/...
boscovich

1
y

Stataブログには、追加のシミュレーションの証拠を提供する関連記事があります。
Dimitriy V. Masterov

6

ポアソン分布はカウントデータのみであり、連続データでフィードしようとするのは厄介であり、実行すべきではないと考えています。理由の1つは、連続変数をスケーリングする方法がわからないことです。そして、ポアソンはスケールに大きく依存します!ここで簡単な例で説明しました。したがって、この理由だけでも、カウントデータ以外にはポアソンを使用しません。

また、GLMは2つのことを行うことに注意してください-リンク関数(応答変数の変換、ポアソンの場合のログイン)、および残差(この場合のポアソン分布)。生物学的課題、残留物について考え、適切な方法を選択してください。対数変換を使用するのが理にかなっている場合もありますが、正規分布の残差はそのままです。

「しかし、混合モデルに入るデータを変換すべきではないというのが、従来の知恵のようです」

初めて聞いた!私にはまったく意味がありません。混合モデルは、ランダム効果を追加しただけで、通常の線形モデルのようになります。ここに正確な引用を記入できますか?私の意見では、ログ変換で問題が解決した場合は、そのまま使用してください


助けてくれてありがとう; 私が「従来の知恵」だと思ったのは、リッテルとミリケンの誤読でした。私は私の質問を編集し、L&M 2006年からの引用追加しました
Nブラウワー

@NBrouwer:はい、実際にそれを誤って解釈したようです。カウントデータを変換するのは厄介であり、連続データをカウントデータに変換してポアソンを当てはめようとするのはさらに厄介です!それが私があなたに説明しようとしたことです。しないでください。必要に応じて、連続データを単にログ変換します。これは統計では非常に一般的であり、心配する必要はありません。
好奇心が

5

ポアソンモデルを使用して対数回帰に適合させる方法についての別の素晴らしい議論があります:http : //blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/(ブログのエントリが示唆するように、私は友人に言っています)。基本的な推力は、ログリンクであるポアソンモデルの一部のみを使用することです。分散が平均と等しいことを必要とする部分は、分散のサンドイッチ推定でオーバーライドできます。ただし、これはすべてiidデータ用です。クラスター化/混合モデルの拡張機能は、Dimitriy Masterovによって適切に参照されています。


1

問題が平均を伴う分散スケーリングであるが、連続データがある場合は、抱えている問題に対応できる連続分布の使用を検討したことがあります。おそらくガンマ?分散は、平均と二次関係にあります-実際には、負の二項式に似ています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.