線形回帰の通常の仮定は何ですか?
含まれますか:
- 独立変数と従属変数の間の線形関係
- 独立したエラー
- エラーの正規分布
- 同相性
他に何かありますか?
線形回帰の通常の仮定は何ですか?
含まれますか:
他に何かありますか?
回答:
答えは、完全かつ通常の定義方法に大きく依存します。次の方法で線形回帰モデルを作成するとします。
ここで、は予測変数のベクトル、は目的のパラメーター、は応答変数、は外乱です。可能な推定の1つは、最小二乗推定です:
現在、実質的にすべての教科書は、この推定不偏、一貫性、効率、いくつかの分布特性などの望ましい特性がある場合の仮定を扱っています。
これらの各プロパティには特定の仮定が必要ですが、これらは同じではありません。したがって、LS推定の必要な特性にどの仮定が必要かを尋ねるのがより良い質問です。
上記のプロパティには、回帰の確率モデルが必要です。そして、ここでは異なる適用フィールドで異なるモデルが使用される状況があります。
単純な場合は、を独立したランダム変数として扱い、は非ランダムです。私はいつもの言葉が好きではありませんが、これはほとんどの応用分野での通常のケースであると言えます(私が知る限り)。
統計的推定の望ましい特性のいくつかのリストは次のとおりです。
存在
存在プロパティは奇妙に見えるかもしれませんが、それは非常に重要です。の定義では、行列を逆にし
すべての可能なバリアントに対して、この行列の逆行列が存在することは保証されません。したがって、すぐに最初の仮定が得られます。
行列はフルランク、つまり可逆的でなければなりません。
不偏
我々は持っている
もし
2番目の仮定に番号を付けることもできますが、線形関係を定義する自然な方法の1つであるため、完全に述べている場合があります。
不偏性を得るには、すべてのに対してのみを必要とし、は定数であることに注意してください。独立プロパティは必要ありません。
一貫性
一貫性の仮定を得るには、意味をより明確に述べる必要があります。確率変数のシーケンスには、さまざまな収束モードがあります。確率、ほぼ確実に、分布とモーメントの意味です。確率の収束を取得したいとします。多数の法則を使用するか、多変量チェビシェフ不等式を直接使用できます(あるという事実を使用)。
(この不等式の変形は、マルコフの不等式をに直接適用したもので、 。)
確率の収束とは、が場合、左辺が消滅することを意味するため、がます。データが多いほど、推定精度が向上するため、これは完全に合理的です。
我々は持っている
独立性により、保証されるため、式は
ここで、次に
さらに、各をバインドする必要がある、すぐに取得し
したがって、一貫性を得るために、自己相関()がないと仮定し、分散は定数であり、は大きくなりすぎないことを仮定しました。が独立したサンプルに由来する場合、最初の仮定は満たされます。
効率
古典的な結果は、ガウス-マルコフの定理です。そのための条件は、まさに一貫性のための最初の2つの条件と不偏のための条件です。
分布特性
が正常な場合、は正常なランダム変数の線形結合であるため、すぐに正常であることがわかります。独立性、無相関性、定数分散の以前の仮定を仮定すると、
ここで。
が正規ではなく独立している場合、中心極限定理のおかげでおおよその分布を得ることができます。この
ため、ある行列についてと仮定する必要があり
ます。と仮定した場合、漸近正規性の定数分散は必要ありません
定数分散により、ことに注意してください。中心極限定理は、次の結果をもたらします。
したがって、このことから、独立性と定数の分散、および特定の仮定により、LS推定多くの有用な特性が得られることがわかります。
問題は、これらの仮定を緩和できることです。たとえば、はランダム変数ではないことを要求しました。この仮定は、計量経済学のアプリケーションでは実行不可能です。私たちは聞かせている場合ランダムで、我々は条件付き期待値を使用する場合、同様の結果を取得し、考慮のランダム取ることができます。独立性の仮定も緩和できます。私たちはすでに、非相関性のみが必要な場合があることをすでに示しました。これでもさらに緩和することができ、LS推定値が一貫しており、無症候性の正常であることを示すことは依然として可能です。詳細については、例えばWhiteの本を参照してください。
ここには多くの良い答えがあります。しかし、(少なくとも明示的には)述べられていない仮定が1つあると思います。具体的には、回帰モデルでは、(説明変数または予測変数の値)が固定され、既知であり、状況の不確実性がすべて変数内に存在すると想定しています。さらに、この不確実性はサンプリングエラーのみであると想定されています。
これについて考える2つの方法があります:説明モデルを構築している場合(実験結果のモデリング)、独立変数を操作/管理しているため、独立変数のレベルが正確にわかります。さらに、データの収集を開始する前に、それらのレベルを決定しました。したがって、関係内の不確実性すべてを、応答内に存在するものとして概念化しています。一方、予測モデルを構築している場合は状況が異なることは事実ですが、予測子を修正して既知であるかのように扱います。これは、将来、モデルを使用して予測を行うときにの可能性のある値については、ベクトル、モデルはそれらの値を正しいものとして扱うように設計されています。つまり、不確実性は未知の値であると考えられます。
これらの仮定は、原型回帰モデルの方程式に見られる で(おそらく測定誤差に)不確実性モデル同様に、同じデータ生成処理を持っているかもしれないが、モデル推定値は次のようになります: ここではランダム測定誤差を表します。(後者のような状況では、変数モデルのエラーが発生します。基本的な結果は、に測定エラーがある場合、単純な
典型的な仮定に固有非対称の一つの実用的な結果は、回帰することである上に退行異なる上に。(ここでの私の答えを参照してください:この事実のより詳細な議論については、xを使ったyとyを使ったxで線形回帰を行うことの違いは何ですか?)
古典的な線形回帰モデルの仮定には以下が含まれます。
ここでの回答は、古典的なOLSの仮定の概要をすでに十分に提供していますが、古典的な線形回帰モデルの仮定のより包括的な説明をここで見つけることができます。
https://economictheoryblog.com/2015/04/01/ols_assumptions/
さらに、この記事では、特定の仮定に違反した場合の結果について説明しています。
何が得られますか?!
答えは、通常の最小二乗(OLS)推定の使用を正当化するために、多少異なる仮定のセットを使用できるということです。OLSはハンマーのようなツールです。釘にハンマーを使用できますが、ペグに使用したり、氷を砕いたりすることもできます。
仮定の2つの広いカテゴリは、小さなサンプルに適用されるものと、中央の制限定理を適用できるように大きなサンプルに依存するものです。
Hayashi(2000)で議論されている小さなサンプルの仮定は次のとおりです。
(1)-(4)の下では、ガウスマルコフの定理が適用され、通常の最小二乗推定量は最良の線形不偏推定量です。
さらに、通常の誤差項を仮定すると、仮説検定が可能になります。エラー条件が条件付きで正常な場合、OLS推定器の分布も条件付きで正常です。
もう1つの注目すべき点は、正規性がある場合、OLS推定量は最尤推定量でもあるということです。
多数の法則(OLS推定器の一貫性のため)と中心極限定理(OLS推定器のサンプリング分布が次のように収束するように)正規分布と仮説検定を行うことができ、p値などについて話すことができます)。
林はマクロ経済学者であり、彼の大規模なサンプルの仮定は、時系列コンテキストを念頭に置いて定式化されています。
たとえば、これらの仮定のより強力なバージョンが発生する場合があります。たとえば、エラー用語は独立しています。
適切な大規模なサンプルの仮定により、漸近的に正規のOLS推定量のサンプリング分布が得られます。
林文雄、2000年、計量経済学
以下は、線形回帰分析の前提です。
正しい仕様。線形関数形式が正しく指定されています。
厳密な外因性。回帰のエラーには、条件付き平均ゼロが必要です。
多重共線性はありません。Xのリグレッサはすべて線形独立でなければなりません。
ホモセダスティック性。これは、誤差項が各観測値で同じ分散を持つことを意味します。
自己相関なし:エラーは観測間で無相関です。
正常。誤差は、リグレッサを条件とする正規分布を持っているとさらに仮定される場合があります。
Iidの観測:は、すべてのに対して独立しており、と同じ分布を持ちます。
詳細については、このページをご覧ください。
仮定の単一のリストのようなものはありません。少なくとも2つあります:1つは固定用、もう1つはランダムな設計マトリックス用です。さらに、時系列回帰の仮定を確認することもできます(p.13を参照)
設計行列が固定されている場合は、最も一般的なものである可能性があり、その仮定はしばしばガウスマルコフの定理として表されます。設計が固定されているため、リグレッサを本当に制御できます。たとえば、実験を行い、温度や圧力などのパラメーターを設定できます。こちらの p.13も参照してください。
残念ながら、経済学などの社会科学では、実験のパラメーターを制御することはほとんどできません。通常、経済で何が起こるかを観察し、環境指標を記録してから、それらを回帰します。ランダムデザインと呼ばれる、非常に異なった、より困難な状況であることがわかりました。この場合、ガウス-マルコフの定理は修正され、ここの p.12も参照してください。条件付き確率の観点から条件がどのように表現されるかを確認できますが、これは無害な変更ではありません。
計量経済学では、仮定の名前は次のとおりです。
正常性については言及していません。これは標準的な仮定ではありません。いくつかの派生を簡単にするため、イントロ回帰コースでよく使用されますが、回帰が機能し、優れたプロパティを持っている必要はありません。
線形性の仮定は、モデルがパラメーターで線形であることです。独立変数のべき関数が線形加法モデルの一部である限り、二次または高次の効果を持つ回帰モデルを持つことは問題ありません。必要なときにモデルに高次の項が含まれていない場合、残差のプロットで適合性の欠如が明らかになります。ただし、標準回帰モデルには、独立変数がパラメーターの累乗になるモデルは組み込まれません(ただし、このようなモデルを評価するために使用できる他のアプローチがあります)。このようなモデルには、非線形パラメーターが含まれています。
最小二乗回帰係数は、あらゆる種類のデータの1次トレンドを要約する方法を提供します。@mpiktasの答えは、最小二乗法がますます最適になる条件の徹底的な処理です。私は他の方法で、最小二乗が機能する最も一般的なケースを示したいと思います。最小二乗方程式の最も一般的な定式化を見てみましょう。
これは、応答の条件付き平均の単なる線形モデルです。
注:エラーの用語に反しています。の不確実性を要約したい場合は、中心極限定理に訴えなければなりません。リンデバーグ条件が満たされると、最小二乗推定器の最も一般的なクラスは通常に収束します。つまり、最小二乗のリンデバーグ条件では、二乗残差の合計に対する最大二乗残差の割合が0になる必要があります。。設計がますます多くの残留物をサンプリングし続ける場合、実験は「水中で死んでいます」。
Lindebergの条件が満たされると、回帰パラメーターは適切に定義され、推定器は既知の近似分布を持つ不偏推定器です。より効率的な推定器が存在する場合があります。不均一分散または相関データの他のケースでは、通常、重み付き推定量がより効率的です。それが、より良い方法が利用できる場合、私がナイーブな方法を使用することを決して支持しない理由です。しかし、彼らはしばしばそうではありません!