どのような条件下で、マルチレベル/階層分析を使用する必要がありますか?


36

より基本的な分析や従来の分析(ANOVA、OLS回帰など)とは対照的に、マルチレベル分析や階層分析の使用を検討すべき条件はどれですか?これが必須と見なされる状況はありますか?マルチレベル/階層分析の使用が不適切な状況はありますか?最後に、初心者がマルチレベル/階層分析を学ぶのに役立つリソースは何ですか?


回答:


22

データの構造が自然に階層的またはネストされている場合、マルチレベルモデリングが適しています。より一般的には、相互作用をモデル化する1つの方法です。

自然な例は、データが国、州、地区などの組織化された構造からのものであり、これらのレベルで効果を調べたい場合です。このような構造に適合する別の例は、縦断的分析です。この分析では、多くの被験者から長期間にわたって測定を繰り返しました(たとえば、薬物投与に対する生物学的反応)。モデルの1つのレベルでは、時間の経過に伴うすべての被験者のグループ平均応答を想定しています。モデルの別のレベルでは、グループ平均からの摂動(ランダム効果)を考慮して、個人差をモデル化できます。

はじめに人気のある良い本は、回帰モデルとマルチレベル/階層モデルを使用したゲルマンのデータ分析です。


3
私はこの答えを2番目に取り上げ、このトピックに関するもう1つの素晴らしいリファレンスを追加したいと思います。歌手のApplied Longitudinal Data Analysisテキスト< gseacademic.harvard.edu/alda >です。これは縦断的分析に固有ですが、一般的なMLMの概要を示しています。また、SnidjersとBoskerのMultilevel Analysisが良好で読みやすい< stat.gamma.rug.nl/multilevel.htm >であることがわかりました。John Foxは、これらのモデルの紹介をRで< cran.r-project.org/doc/contrib/Fox-Companion/… >で提供しています。
ブレット

回答ありがとうございます:)フォローアップの質問として、ほとんどのデータは自然に階層化/ネストされていると概念化できませんでしたか?たとえば、ほとんどの心理学的研究では、個人内にネストされた多数の従属変数(アンケート、刺激応答など)があり、それらはさらに2つ以上のグループ(ランダムまたは非ランダムに割り当てられた)内にネストされます。これが自然に階層化されたデータ構造やネストされたデータ構造を表すことに同意しますか?
パトリック

マルチレベル/階層の達人のいずれかが数分を空けることができた場合、別の投稿(stats.stackexchange.com/questions/1799/…)で提示された分析の質問を検討していただければ非常に感謝します。具体的には、その記事で概説されている痛みの知覚データは、非階層的分析よりも階層的分析によってよりよく分析されると思いますか?または、それは違いを生まないか、不適切でさえないでしょうか?ありがとう:D-
パトリック

18

Center for Multilevel Modelingには、マルチレベルモデリングのための優れた無料のオンラインチュートリアルがあり、MLwiNソフトウェアとSTATAの両方でモデルをフィッティングするためのソフトウェアチュートリアルがあります。

これは異端だと考えてください。本の章を1つしか読んでいませんが、階層線形モデル:アプリケーションとデータ分析方法Stephen W. Raudenbush著、Anthony S. Brykが強くお勧めします。また、Springer Use RでRソフトウェアを使用したマルチレベルモデリングに関する本があることを誓いました。シリーズですが、現時点では見つけることができないようです(Rの初心者向けガイドを書いたのと同じ人が書いたと思います)。

編集:Rをマルチレベルモデルに使用することに関する本は、Zuur、AF、Ieno、EN、Walker、N.、Saveliev、AA、Smith、GMによるRとの混合効果モデルとエコロジーの拡張です

がんばろう


9

マルチレベルモデルと回帰モデルの使用に関する別の観点を次に示します。Afshartousとde Leeuwの興味深い論文では、モデリングの目的が予測(つまり、新しい観測値を予測)する場合、モデルの選択は目標は推論です(モデルとデータ構造を一致させようとします)。私が言及している論文は

Afshartous、D.、de Leeuw、J。(2005)。マルチレベルモデルでの予測。J.エデュカット。行動。統計学者。30(2):109–139。

これらの著者による別の関連論文をここで見つけました:http : //moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf


6

以下に、マルチレベルモデルが「必須」である場合の例を示します。生徒のテストスコアを使用して、一連の学校が提供する教育の「質」を評価するとします。学校の質を定義する1つの方法は、生徒の特性を考慮した後の平均テストパフォーマンスです。これは、ように概念化できます ここで、は、学校生徒連続テストスコア、は学校を中心とした学生属性は、はこれらの属性の学校固有の係数、は学校の質を測定する「学校効果」、

ys=αs+バツsβs+ϵs
yssバツsβsαsϵsは、受験のパフォーマンスにおける学生レベルの特異性です。ここでの関心は、の推定に焦点を当てています。これは、属性が考慮された後、学校が生徒に提供する「付加価値」を測定します。生徒の属性を考慮したいのは、特定の不利な点がある生徒に対処しなければならない良い学校を罰したくないためです。したがって、学校が生徒に提供する高い「付加価値」にもかかわらず、平均テストのスコアを低下させます。 αs

モデルが手元にある場合、問題は推定の1つになります。多くの学校と各学校のデータがたくさんある場合は、OLSの優れたプロパティ(AgristとPischke、Mostly Harmlessを参照してください...、現在のレビューでは)標準エラーを適切に調整して依存関係を考慮し、ダミー変数と相互作用を使用して学校レベルの効果と学校固有のインターセプトを取得することをお勧めします。OLSは非効率的かもしれませんが、透明性が非常に高いため、それを使用すれば懐疑的な視聴者を説得しやすくなります。ただし、特定の方法でデータがまばらになっている場合(特に一部の学校で観測結果が少ない場合)、問題にさらに「構造」を課すことができます。推定が構造なしで行われた場合に小さなサンプルの学校で得られるノイズの多い推定を改善するために、大きなサンプルの学校から「力を借りる」ことができます。次に、FGLSで推定されたランダム効果モデルを使用します。

この例では、マルチレベルモデルの使用(ただし、最終的には適合させることにしましたが)は、学校レベルのインターセプトに対する直接的な関心によって動機付けられています。もちろん、他の状況では、これらのグループレベルのパラメーターは迷惑にすぎない場合があります。それらを調整する必要があるかどうか(したがって、何らかのマルチレベルモデルで引き続き動作するかどうか)は、特定の条件付き外生性の仮定が成り立つかどうかによって決まります。それについては、パネルデータの方法に関する計量経済学の文献を参照することをお勧めします。そこからのほとんどの洞察は、一般的なグループ化されたデータコンテキストに引き継がれます。


1
これは古いスレッドですが、あなたがこれを読んだ場合:ダミー変数と相互作用を持つOLSは、あなたが言及した他のテクニックのように強さを借りませんか?分析を2つの部分に分割し、2つのlm(R線形モデル)コマンドを使用して2つの部分をモデル化したデータがあります。2つの部分を示すダミー変数を導入し、この「統一」モデルでlmを再度使用しましたが、答えは近いですが、同じではありません。私の質問は次のとおりです。その答えは「より良い」のですか、それともアルゴリズムのために単に違うのですか?
ウェイン

@Wayne:2番目にダミーとインタラクションの完全なセットを使用した場合、ポイントの推定値は同じである必要があります。2番目の方法はより高い自由度を前提とする可能性があるため、標準誤差は異なる場合がありますが、それが正しいモデリングの前提であるかどうかを確認する必要があります。
サイラスS

6

名前が示すように、データがさまざまなレベル(個々、経時、ドメインなど)で影響を与える場合、マルチレベルモデリングが適切です。単一レベルのモデリングでは、すべてが最下位レベルで発生していると想定しています。マルチレベルモデルが行うもう1つのことは、ネストされたユニット間に相関関係を導入することです。したがって、同じレベル2ユニット内のレベル1ユニットは相関します。

ある意味では、マルチレベルモデリングは、「個人主義の誤acy」と「生態学的な誤acy」の中間点を見つけると考えることができます。個人主義の誤acyとは、たとえば、教師のスタイルと生徒の学習スタイルとの互換性など、「コミュニティ効果」が無視される場合です(効果は個人のみから生じると想定されるため、レベル1で回帰を行います)。一方、「生態学的誤acy」は正反対であり、最高の教師が最高の成績の生徒を持っていると仮定するようなものです(したがって、レベル1は不要で、レベル2で完全に回帰します)。ほとんどの設定では、どちらも適切ではありません(生徒教師は「古典的な」例です)。

yjj


4

一般に、階層ベイジアン(HB)分析を行うと、個々のレベルの効果が完全に均一になるようなデータ(非現実的なシナリオ)でない限り、効率的で安定した個々のレベルの推定値につながります。HBモデルの効率と安定したパラメーター推定は、スパースデータ(たとえば、個々のレベルのパラメーターの数よりもobsの数が少ない)があり、個々のレベルの推定を推定する場合に非常に重要になります。

ただし、HBモデルの推定は必ずしも容易ではありません。したがって、通常、HB分析は非HB分析よりも優れていますが、過去の経験と時間とコストの面での現在の優先順位に基づいて、相対コストと利益を比較検討する必要があります。

個々のレベルの推定値に興味がない場合は、単純に集約レベルモデルを推定できますが、これらのコンテキストでも、個々のレベルの推定値を使用してHBを介して集約モデルを推定することは非常に意味があります。

要約すると、HBモデルをフィッティングすることは、モデルをフィッティングする時間と忍耐がある限り、推奨されるアプローチです。その後、集計モデルをベンチマークとして使用して、HBモデルのパフォーマンスを評価できます。


詳細な返信ありがとうございます。Srikant:)現在、ベイジアン解析に精通していませんが、私は調査する意味のあるトピックの1つです。階層ベイジアン分析は、このページで説明した他のマルチレベル/階層分析とは異なりますか?もしそうなら、あなたは興味を持っている人がより多くを学ぶための推奨リソースを持っていますか?
パトリック

βNβ¯Σβ¯N

4

Snijders and BoskerのMultilevel Analysis:Basic and Advanced Multilevel Modelingから学びました。私は初心者に非常によく売り込まれていると思います。それは私がこれらのことを懸念している分厚い人間だからだと思います。

ゲルマンとヒルも2番目です。本当に素晴らしい本です。


1

データが階層構造にネストされている場合、特に従属変数の上位レベルのユニット間で有意差がある場合(たとえば、学生の達成指向が学生間で、また学生のクラス間でも異なる場合)、マルチレベルモデルを採用する必要がありますネストされています)。これらの状況では、観測は独立ではなくクラスター化されます。クラスタリングを考慮に入れないと、パラメーター推定値の誤差の過小評価、偏りのある有意性テスト、およびヌルを保持する必要がある場合にヌルを拒否する傾向につながります。マルチレベルモデルを使用する理論的根拠、および分析の実行方法の詳細な説明は、

Raudenbush、SW Bryk、AS(2002)。階層線形モデル:アプリケーションとデータ分析方法。第2版​​。ニューベリーパーク、CA:セージ。

R&Bブックは、著者のHLMソフトウェアパッケージともうまく統合されており、パッケージの学習に非常に役立ちます。マルチレベルモデルが必要であり、いくつかの代替案(より高いレベルのユニットのダミーコーディングなど)よりも望ましい理由の説明は、古典的な論文で提供されています。

ホフマン、DA(1997)。階層線形モデルの論理と原理の概要。Journal of Management、23、723-744。

Hoffman論文は、「Hoffman 1997 HLM」をGoogleで検索してオンラインでPDFにアクセスすると、無料でダウンロードできます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.