最小二乗仮定


9

次の線形関係を仮定: ここで、Y iは従属変数であり、X I単一の独立変数及びU I誤差項。Yi=β0+β1Xi+uiYiXiui

Stock&Watson(計量経済学入門; 第4章)によると、3番目の最小二乗の仮定は、u iの4次モーメントは非ゼロで有限0 < E X 4 i<  および  0 < E u 4 i< Xiui(0<E(Xi4)< and 0<E(ui4)<)

3つの質問があります。

  1. 私はこの仮定の役割を完全には理解していません。この仮定が成り立たない場合、または推論にこの仮定が必要な場合、OLSは偏っており、矛盾していますか?

  2. ストックとワトソンは、「この仮定は、またはu iの非常に大きな値で観測値を描画する確率を制限します。」と書いています。しかし、私の直感では、この仮定は極端です。外れ値が大きい場合(4次モーメントが大きい場合など)に問題がありますが、これらの値がまだ有限である場合はどうでしょうか。ところで、外れ値の根底にある定義は何ですか?Xiui

  3. これを次のように再定式化できますか:「u iの尖度は非ゼロで有限ですか?」Xiui


残念ながら、今は完全な答えを書くことはできませんが、質問に答えるには、1、OLSの一貫性は関係なく機能します。2、異常値の明確な定義はありませんが、OLSは異常値が存在する大規模なサンプルで正常に機能します。3、私の人生において、私はそれが真実ではない例を考えることはできませんが、誰かが私を間違っていると証明することができるので、保証はありません
Repmat

5
「しかし、OLSは外れ値が存在する大きなサンプルでは正常に機能します」... x空間で十分に大きい外れ​​値(つまり、影響力のある観測値)を取得すると、単一の点でLSフィットを強制的に通過させることができます。それがY方向の異常値でもある場合、線は、極端であっても、その1点を通過します。
Glen_b-2016

2
外れ値は簡単に定義できます。これらは、データの大部分のパターンと一致しない観測です。Glen_bの例が示すように、そのような点は、データセット内の他のすべての観測値を上回る限界で、適合に過度の影響を及ぼし、推定に大きな偏りが生じます。
user603 16

1
@ user603確かに...そして何を...私はまだ異常値を自動的に検出し、明確な方法で私たち全員が正しい方法であるようにプログラム/スクリプトに遭遇していません...だから私はあなたの感情に同意しますが、それはOPを助け
ません

@Repmat:OPの質問をもう一度読んでください。私のコメントは、疑問符で区切られた文の1つに直接回答します。
user603 16

回答:


9

xϵ

n

一貫性のための十分な条件:

yi=xiβ+ϵi

b^

b^=β+(XXn)1(Xϵn)

以下のために一貫性は、大数のコルモゴロフの法則を適用することや、シリアル依存性と時系列の場合には、カーリンおよびテイラーのエルゴード定理のようなものとなるようする必要があります。

1nXXpE[xixi]1nXϵpE[xiϵi]

必要なその他の前提条件は次のとおりです。

  • E[xixi]
  • E[xiϵi]=0

(XXn)1(Xϵn)p0b^pβ

E[gigi]gi=xiϵib^E[gigi]xϵn(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]Σ

この投稿の動機となった素晴らしい議論は、林の計量経済学で与えられています。(4次モーメントと共分散行列の推定については、149ページも参照してください。)

討論:

これらの4番目の瞬間の要件は、おそらく実用的なポイントではなく技術的なポイントです。これが日常のデータの問題である病理学的分布に遭遇することはおそらくないでしょうか?OLSのより一般的なまたは他の仮定が失敗するためです。

Stackexchangeの他の場所で間違いなく回答されている別の質問は、有限サンプルが漸近的な結果に近づくために必要なサンプルの大きさです。ファンタスティックな外れ値が収束を遅くするという意味がいくつかあります。たとえば、分散が非常に大きい対数正規分布の平均を推定してみます。標本平均は母集団平均の一貫した偏りのない推定値ですが、狂った過剰尖度などの対数正規の場合(リンクをたどる)、有限標本結果は実際にはかなりずれています。

有限対無限は数学において非常に重要な違いです。それはあなたが日常の統計で遭遇する問題ではありません。実用的な問題は、小さなカテゴリと大きなカテゴリのどちらにも当てはまります。分散、尖度などは十分に小さいので、サンプルサイズを考慮して妥当な推定を行うことができますか?

OLS推定量は一貫しているが漸近的に正常ではない病理学的例

検討してください:

yi=bxi+ϵi
xiN(0,1)ϵiVar(ϵi)=bb^b^ 10000の観測値を持つ回帰の10000のシミュレーションに基づいています。 推定量のQQPlot(分布が正規分布に収束しない)

b^ϵi推定量のQQPlot(分布が正規分布に収束する)

それを生成するコード:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));

1
t(3)

1
n(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]ΣΣϵiϵi2xixi

6
  1. X

  2. 統計のこれらの理論的基盤は、実用的なアプリケーションのために煮詰められると、多くの混乱を引き起こします。外れ値の定義はなく、直感的な概念です。おおまかに理解するには、観測は高いレバレッジポイントまたは高い影響ポイントである必要があります。たとえば、削除診断(DFベータ)が非常に大きい、または予測子のマハラノビス距離が大きい(一変量統計の場合)それは単なるZスコアです)。しかし、実際的な問題に戻りましょう:人とその世帯収入をランダムに調査し、100人のうち、私がサンプリングした人の1人が億万長者である場合、私は、億万長者が人口の1%を代表していると推測します。生物統計学の講義では、これらの原則について説明し、診断ツールは本質的に探索的であることを強調しています[3]。ではない、それは、される「外れ値は、私が信じているものです除外分析」「一点の除去は完全に私の分析を変更しました。」

  3. 尖度は、分布の2次モーメントに依存するスケーリングされた量ですが、このプロパティは4次モーメントでは保持できないが2次モーメントでは保持できないため、これらの値の有限非ゼロ分散の仮定は暗黙的です。基本的にはそうですが、全体として、尖度や4番目の瞬間を検査したことはありません。私はそれらが実用的または直感的な尺度であるとは思いません。ヒストグラムまたは散布図が指のスナップで作成された今日、これらのプロットを調べて、定性的なグラフィカル診断統計を使用する必要があります。

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html


前に指摘したように、外れ値が複数ある場合、外れ値に関する直観は壊れます。これらの統計自体は外れ値によって左右される可能性があるため、DFベータプロットで目立ったり、Zスコアが大きくなるとは限りません。前に説明したように、外れ値をチェックしないままにしておくと、それらを削除したり、それらにロバストな推定手法を使用したりしない限り、偏った係数が生成されます。
user603

1
より一般的には、意見を表明するとき、関連する文献へのポインタを含めることで、OPがこれらの意見のどれが広く保持されているかを知ることで、あなたの答えが得られると思います。
user603

@ user603最初のコメントに対して、外れ値を特定するための唯一の方法としてDFbetas(または診断ツール)を指摘していませんが、確かに有用です。セミパラメトリック推論(平均モデル正解)を実行する場合、外れ値はLSモデルにバイアスをかけません。ノンパラメトリックLS以外の場合に参照または例を作成できますか?2番目のコメントは良いものです。次の数秒で引用を提供します。
AdamO 2016年

「OLSはこれらの条件下でバイアスされておらず、一貫性がない」というあなたの声明は正しくありません。漸近正規性には、より高いモーメントが必要です。これらは、コルモゴロフの大数の法則が適用されるIIDサンプルの整合性のためには必要ありません。
Matthew Gunn
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.