異質性/異分散性の説明に関するアドバイス


8

私の部門の生物学者に異質性/異分散性を説明する方法についてのヘルプ、アドバイス、またはヒントを探しています。特に、なぜそれを探し、それが存在する場合はそれに対処することが重要である理由を説明したいのですが、私は次の質問についての意見を探していました。

  1. 異質性は変量効果推定の信頼性に影響を与えますか?確かにあると思いますが、論文が見つかりませんでした。
  2. 異質性はどれほど深刻な問題ですか?私はこれについて矛盾する見解を発見しましたが、モデルの標準エラーなどは信頼できないと言う人もいますが、異質性が深刻な場合にのみ問題であることも読みました。重症度はどれくらいですか?
  3. 異質性のモデリングに関するアドバイス。現在、私は主にRのnlmeパッケージと分散共変量の使用に焦点を当てています。これはかなり簡単で、ここでほとんどの人がRを使用しているため、スクリプトを提供すると便利です。私はMCMCglmmパッケージも使用していますが、他の提案、特に通常でないデータについては歓迎します。
  4. その他の提案は大歓迎です。

1
@ user3136、これらの2つの概念は明らかに異なるため、不均一性(おそらく既知の分布から取得された固有の属性を持つさまざまな種)または不均一性(時変変動を持つランダムプロセスの特性)が主な懸念であることを明確にしてください。両方の問題は興味深いものですが、前者は混合効果モデルまたはランダム係数モデルにつながり、後者は対処する多くの解決策があります(ただし、は効率的ではないため、あまり重要ではありませんが、推定には偏りがありません)。OLS
Dmitrij Celov 2011年

こんにちは、申し訳ありません。私の懸念は本当に異分散性についてです。私が抱えていた問題の1つは、これらの2つの用語(異分散性と異質性)がほとんど同じ意味で使用されていることです。この文脈では、両方とも残差のエラーが一定でない状況を参照することになっています
user3136

4
実際にはそうではありませんが、不均一性の原因は多数あります。パラメータの違い(たとえばランダムパラメータ)、変数(通常は回帰のこと)、残差(異なる分布に属している可能性のある特異部分、または分布パラメータが異なる可能性があります。異分散性はここに属します。したがって、それは異質性の別のケースです)、機能的な形の違い。だから私はもっと特定の言葉、異端性を残しておきます。
Dmitrij Celov 2011年

Dimitrijに感謝します。私が尋ねるつもりだった質問の1つは、この分野の正しい用語についてでした。
user3136 2011年

回答:


6

アロメトリーは、生物学者に馴染みのある開始点として適しています。対数変換はアロメトリーでよく使用されます。これは、データがべき法則形式であるためですが、ノイズプロセスが不均一であるためです(可変性はサイズに比例するため)。これが深刻な問題を引き起こした例については、「恐竜の体重を予測するための相対成長方程式」を参照してください。この場合、恐竜は以前はサイズの半分しかなかったという結論は、等分散性の無効な仮定が行われたために正しくありませんでした(対応関係を参照)詳細)。


6

1つのオプションは、シミュレーションを使用することです。したがって、とする不均一性を具体的に指定するモデルを設定します。次に、このモデルからデータを生成し、ランダムなインターセプトを簡単な例として取り上げます。var(αi)=X¯i2σu2

αi=X¯iuiuiN(0,σu2)

Yij=αi+βXij+eijeijN(0,σe2)

(この表記が意味をなすことを願っています)。このような設定で遊んでみると、質問2)に答えるのに役立つと思います。したがって、ランダムなインターセプトを使用してこのモデルをフィットしますが、実際にはランダムな勾配である必要があります(これにより、質問3に対する部分的な回答が得られます-ランダムなインターセプトはある程度「ファニング」を説明できます-これは「レベル2ファニング」です)。上記の考え方は、モデリング手法を破るようにできる限り努力することです。データについて知っていることと一致する極端な条件を試し、何が起こるかを確認してください。これらの条件を見つけるのに苦労している場合は、心配しないでください。

OLSの不均一性について簡単にチェックしましたが、推定ベータにあまり影響を与えていないようです。私にとっては、不均一性は一部の場所では起こりそうなエラーの過小評価を与えることによって、他の場所では可能性のあるエラーの過大評価を(予測の観点から)与えるように思えます。下記参照:

ここでデータのプロットを待っています、ユーザーは現在コンピューターに不満を感じています

そして、私がいつも面白いと思うことの1つは、人々が心配するこの「データの非正規性」です。データは正規分布である必要はありませんが、誤差項はそうです。これが当てはまらない場合、GLMは機能しません。GLMは、GLMMと同様に、尤度関数の通常の近似を使用してパラメーターを推定します。

したがって、固定効果パラメーターを推定することが主な目標である場合、それほど心配する必要はありませんが、異分散性を考慮に入れることで、より良い予測結果を得ることができます。


1
こんにちは、アドバイスありがとうございます。私は現在いくつかのシミュレーションに取り組んでいるので、それらがうまくいくことを願っています。私が知る限り、異分散性は回帰係数の推定に影響を与えませんが、これらの推定の標準誤差を過大または過小評価する可能性があります。
user3136 2011年

異分散性がある場合、実際には両方(過大評価と過小評価)を行います。通常のデータの「平均化」が実際の値を過大評価し、過小評価するのと同様の方法で。勾配の場合、ライン上の異なるポイントで異なる精度が得られます。
確率論的

私の特定の分野では、有意性検定に大きく依存しているため、p値にも依存しています。したがって、p値に基づいてすべての推論を行う場合、SEが過大評価および過小評価される可能性があるという事実は、いくつかの問題を引き起こす可能性があると思います。
user3136 2011年

すべての推論がp値と有意性検定に基づいている場合、標準エラーよりも大きな問題があると思います。これらの種類のものは「無知な統計」を奨励します。
確率

私はもっ​​と同意することができませんでした。私が話すほとんどの人は、そのようなアプローチが疑わしいことを知っていると思いますが、しばしば他のものすべてを犠牲にして、p値のみに焦点を当てることを止めることは困難です。
user3136 2011

0

異分散性について学ぶために私が知っている最高の無料オンラインリソースは、Thoma教授の2011年からのECON 421講義です。具体的には講義1〜7。

これが最初の講義です。ここにも2011年冬学期の残りの講義があります。 http://www.youtube.com/watch?v=WK03XgoVsPM

また、Thoma教授のEcon 421コースに対応するWebサイトには、宿題の問題とその解決策があります。ソフトウェアを必要とするソリューションの場合、ソリューションは、テキスト、数式、およびEviewsからのスクリーンショットの組み合わせを使用して、詳細なステップバイステップです。

宿題の問題を解決するために使用される手順はEビューのスクリーンショットを使用して詳細に説明されていますが、ソリューションはSTATAやR統計などの他の統計パッケージに簡単に変換できます。

トーマ教授の最後のビデオ録画学期である2011学期の宿題のソリューションはありません。ただし、2012年冬学期の宿題もあります。

これは、Thomas Winter 2012 421教授クラスの宿題ソリューションセクションへのリンクです。具体的には、ここに宿題の解決策3があり、宿題セットに不均一分散が導入されます。http://economistsview.typepad.com/economics421/2012/02/solution-to-homework-3.html


1
ジェームズ、これらの参照をありがとう。ただし、ここでは質問者が説明アドバイスを求めています。あなたの答えが関連することができるように、あなたはこれらの参照で特定の「助け、助言、またはヒント」を言い換えることができますか?
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.