1つのオプションは、シミュレーションを使用することです。したがって、とする不均一性を具体的に指定するモデルを設定します。次に、このモデルからデータを生成し、ランダムなインターセプトを簡単な例として取り上げます。var(αi)=X¯¯¯¯2iσ2u
αi=X¯¯¯¯iuiui∼N(0,σ2u)
Yij=αi+βXij+eijeij∼N(0,σ2e)
(この表記が意味をなすことを願っています)。このような設定で遊んでみると、質問2)に答えるのに役立つと思います。したがって、ランダムなインターセプトを使用してこのモデルをフィットしますが、実際にはランダムな勾配である必要があります(これにより、質問3に対する部分的な回答が得られます-ランダムなインターセプトはある程度「ファニング」を説明できます-これは「レベル2ファニング」です)。上記の考え方は、モデリング手法を破るようにできる限り努力することです。データについて知っていることと一致する極端な条件を試し、何が起こるかを確認してください。これらの条件を見つけるのに苦労している場合は、心配しないでください。
OLSの不均一性について簡単にチェックしましたが、推定ベータにあまり影響を与えていないようです。私にとっては、不均一性は一部の場所では起こりそうなエラーの過小評価を与えることによって、他の場所では可能性のあるエラーの過大評価を(予測の観点から)与えるように思えます。下記参照:
ここでデータのプロットを待っています、ユーザーは現在コンピューターに不満を感じています
そして、私がいつも面白いと思うことの1つは、人々が心配するこの「データの非正規性」です。データは正規分布である必要はありませんが、誤差項はそうです。これが当てはまらない場合、GLMは機能しません。GLMは、GLMMと同様に、尤度関数の通常の近似を使用してパラメーターを推定します。
したがって、固定効果パラメーターを推定することが主な目標である場合、それほど心配する必要はありませんが、異分散性を考慮に入れることで、より良い予測結果を得ることができます。