同僚は、学位論文のいくつかの生物学的データを、いくつかの厄介な異分散性で分析しています(下図)。彼女は混合モデルで分析していますが、まだ残差に問題があります。
応答変数をログ変換すると、物事がクリーンアップされ、この質問へのフィードバックに基づいて、これは適切なアプローチのようです。ただし、元々、混合モデルで変換された変数を使用することには問題があると考えていました。Littell&Milliken(2006)SAS for Mixed Modelsで、カウントデータを変換し、通常の線形混合モデルで分析することが不適切である理由を指摘していたステートメントを誤って解釈していたことがわかりました(完全な引用は以下) 。
残差も改善したアプローチは、ポアソン分布の一般化線形モデルを使用することでした。ポアソン分布は連続データのモデリングに使用でき(たとえば、この投稿で説明されているように)、statsパッケージで許可されますが、モデルが適合するときに何が起こっているのかわかりません。
基本的な計算がどのように行われているのかを理解するために、私の質問は次のとおりです:ポアソン分布を連続データに適合させると、1)データは最も近い整数に丸められますか?2)これは情報の損失をもたらします3)連続データにポアソンモデルを使用するのが適切な場合はいつですか?
Littel&Milliken 2006、pg 529 "[count]データの変換は逆効果になる可能性があります。たとえば、変換はランダムなモデル効果の分布やモデルの線形性を歪める可能性があります。結果として、変換されたデータを使用した混合モデルからの推論は非常に疑わしい。」