回答:
データの構造が自然に階層的またはネストされている場合、マルチレベルモデリングが適しています。より一般的には、相互作用をモデル化する1つの方法です。
自然な例は、データが国、州、地区などの組織化された構造からのものであり、これらのレベルで効果を調べたい場合です。このような構造に適合する別の例は、縦断的分析です。この分析では、多くの被験者から長期間にわたって測定を繰り返しました(たとえば、薬物投与に対する生物学的反応)。モデルの1つのレベルでは、時間の経過に伴うすべての被験者のグループ平均応答を想定しています。モデルの別のレベルでは、グループ平均からの摂動(ランダム効果)を考慮して、個人差をモデル化できます。
はじめに人気のある良い本は、回帰モデルとマルチレベル/階層モデルを使用したゲルマンのデータ分析です。
Center for Multilevel Modelingには、マルチレベルモデリングのための優れた無料のオンラインチュートリアルがあり、MLwiNソフトウェアとSTATAの両方でモデルをフィッティングするためのソフトウェアチュートリアルがあります。
これは異端だと考えてください。本の章を1つしか読んでいませんが、階層線形モデル:アプリケーションとデータ分析方法Stephen W. Raudenbush著、Anthony S. Brykが強くお勧めします。また、Springer Use RでRソフトウェアを使用したマルチレベルモデリングに関する本があることを誓いました。シリーズですが、現時点では見つけることができないようです(Rの初心者向けガイドを書いたのと同じ人が書いたと思います)。
編集:Rをマルチレベルモデルに使用することに関する本は、Zuur、AF、Ieno、EN、Walker、N.、Saveliev、AA、Smith、GMによるRとの混合効果モデルとエコロジーの拡張です
がんばろう
マルチレベルモデルと回帰モデルの使用に関する別の観点を次に示します。Afshartousとde Leeuwの興味深い論文では、モデリングの目的が予測(つまり、新しい観測値を予測)する場合、モデルの選択は目標は推論です(モデルとデータ構造を一致させようとします)。私が言及している論文は
Afshartous、D.、de Leeuw、J。(2005)。マルチレベルモデルでの予測。J.エデュカット。行動。統計学者。30(2):109–139。
これらの著者による別の関連論文をここで見つけました:http : //moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf
以下に、マルチレベルモデルが「必須」である場合の例を示します。生徒のテストスコアを使用して、一連の学校が提供する教育の「質」を評価するとします。学校の質を定義する1つの方法は、生徒の特性を考慮した後の平均テストパフォーマンスです。これは、ように概念化できます ここで、は、学校生徒連続テストスコア、は学校を中心とした学生属性は、はこれらの属性の学校固有の係数、は学校の質を測定する「学校効果」、
モデルが手元にある場合、問題は推定の1つになります。多くの学校と各学校のデータがたくさんある場合は、OLSの優れたプロパティ(AgristとPischke、Mostly Harmlessを参照してください...、現在のレビューでは)標準エラーを適切に調整して依存関係を考慮し、ダミー変数と相互作用を使用して学校レベルの効果と学校固有のインターセプトを取得することをお勧めします。OLSは非効率的かもしれませんが、透明性が非常に高いため、それを使用すれば懐疑的な視聴者を説得しやすくなります。ただし、特定の方法でデータがまばらになっている場合(特に一部の学校で観測結果が少ない場合)、問題にさらに「構造」を課すことができます。推定が構造なしで行われた場合に小さなサンプルの学校で得られるノイズの多い推定を改善するために、大きなサンプルの学校から「力を借りる」ことができます。次に、FGLSで推定されたランダム効果モデルを使用します。
この例では、マルチレベルモデルの使用(ただし、最終的には適合させることにしましたが)は、学校レベルのインターセプトに対する直接的な関心によって動機付けられています。もちろん、他の状況では、これらのグループレベルのパラメーターは迷惑にすぎない場合があります。それらを調整する必要があるかどうか(したがって、何らかのマルチレベルモデルで引き続き動作するかどうか)は、特定の条件付き外生性の仮定が成り立つかどうかによって決まります。それについては、パネルデータの方法に関する計量経済学の文献を参照することをお勧めします。そこからのほとんどの洞察は、一般的なグループ化されたデータコンテキストに引き継がれます。
名前が示すように、データがさまざまなレベル(個々、経時、ドメインなど)で影響を与える場合、マルチレベルモデリングが適切です。単一レベルのモデリングでは、すべてが最下位レベルで発生していると想定しています。マルチレベルモデルが行うもう1つのことは、ネストされたユニット間に相関関係を導入することです。したがって、同じレベル2ユニット内のレベル1ユニットは相関します。
ある意味では、マルチレベルモデリングは、「個人主義の誤acy」と「生態学的な誤acy」の中間点を見つけると考えることができます。個人主義の誤acyとは、たとえば、教師のスタイルと生徒の学習スタイルとの互換性など、「コミュニティ効果」が無視される場合です(効果は個人のみから生じると想定されるため、レベル1で回帰を行います)。一方、「生態学的誤acy」は正反対であり、最高の教師が最高の成績の生徒を持っていると仮定するようなものです(したがって、レベル1は不要で、レベル2で完全に回帰します)。ほとんどの設定では、どちらも適切ではありません(生徒教師は「古典的な」例です)。
一般に、階層ベイジアン(HB)分析を行うと、個々のレベルの効果が完全に均一になるようなデータ(非現実的なシナリオ)でない限り、効率的で安定した個々のレベルの推定値につながります。HBモデルの効率と安定したパラメーター推定は、スパースデータ(たとえば、個々のレベルのパラメーターの数よりもobsの数が少ない)があり、個々のレベルの推定を推定する場合に非常に重要になります。
ただし、HBモデルの推定は必ずしも容易ではありません。したがって、通常、HB分析は非HB分析よりも優れていますが、過去の経験と時間とコストの面での現在の優先順位に基づいて、相対コストと利益を比較検討する必要があります。
個々のレベルの推定値に興味がない場合は、単純に集約レベルモデルを推定できますが、これらのコンテキストでも、個々のレベルの推定値を使用してHBを介して集約モデルを推定することは非常に意味があります。
要約すると、HBモデルをフィッティングすることは、モデルをフィッティングする時間と忍耐がある限り、推奨されるアプローチです。その後、集計モデルをベンチマークとして使用して、HBモデルのパフォーマンスを評価できます。
データが階層構造にネストされている場合、特に従属変数の上位レベルのユニット間で有意差がある場合(たとえば、学生の達成指向が学生間で、また学生のクラス間でも異なる場合)、マルチレベルモデルを採用する必要がありますネストされています)。これらの状況では、観測は独立ではなくクラスター化されます。クラスタリングを考慮に入れないと、パラメーター推定値の誤差の過小評価、偏りのある有意性テスト、およびヌルを保持する必要がある場合にヌルを拒否する傾向につながります。マルチレベルモデルを使用する理論的根拠、および分析の実行方法の詳細な説明は、
Raudenbush、SW Bryk、AS(2002)。階層線形モデル:アプリケーションとデータ分析方法。第2版。ニューベリーパーク、CA:セージ。
R&Bブックは、著者のHLMソフトウェアパッケージともうまく統合されており、パッケージの学習に非常に役立ちます。マルチレベルモデルが必要であり、いくつかの代替案(より高いレベルのユニットのダミーコーディングなど)よりも望ましい理由の説明は、古典的な論文で提供されています。
ホフマン、DA(1997)。階層線形モデルの論理と原理の概要。Journal of Management、23、723-744。
Hoffman論文は、「Hoffman 1997 HLM」をGoogleで検索してオンラインでPDFにアクセスすると、無料でダウンロードできます。