ダニエルウィルクス(2011)は、主成分回帰が「バイアスされる」と言うのはなぜですか?


13

大気科学における統計的手法の予測の中で非常に強いintercorrelations(第3版、ページ559から560)がある場合は、複数の線形回帰は、問題を引き起こす可能性があること、ダニエル・ウィルクス・ノート:

多重線形回帰で発生する可能性のある病状は、強い相互相関を持つ予測変数のセットが不安定な回帰関係の計算につながる可能性があることです。

(...)

次に、主成分回帰を導入します。

この問題を解決する方法は、最初に予測子をその相関関係がゼロである主成分に変換することです。

ここまでは順調ですね。しかし、次に、彼は説明していない(または少なくとも私が理解するのに十分な詳細ではない)いくつかの声明を出します:

すべての主成分が主成分回帰で保持されている場合、完全な予測子セットへの従来の最小二乗近似では何も得られません。

(..)および:

元の予測子に関して主成分回帰を再表現することは可能ですが、1つまたは少数の主成分予測子のみが使用されている場合でも、結果には一般にすべての元の予測子変数が含まれます。この再構成された回帰は偏りがありますが、多くの場合、分散ははるかに小さく、全体としてMSEが小さくなります。

私はこれらの2つの点を理解していません。

もちろん、すべての主成分が保持されている場合、元の空間で予測子を使用していたときと同じ情報を使用します。ただし、相互相関の問題は、主成分空間で作業することにより除去されます。私たちはまだ過剰適合しているかもしれませんが、それが唯一の問題ですか?何も得られないのはなぜですか?

第二に、主成分を切り捨てたとしても(おそらくノイズ低減および/または過剰適合を防ぐために)、なぜ、どのようにこれが偏った再構成回帰につながるのでしょうか?どのように偏ったのですか?


書籍のソース:Daniel S. Wilks、Atmospheric Methods in the Atmospheric Sc​​iences、第3版、2011年。InternationalGeophysics Series Volume 100、Academic Press。


4
(+1)2番目の引用では、「バイアスされる」は論理的には続きません。「バイアスされる可能性が高い」などの穏やかな表現が良いでしょう。その背後にある理由は、「PCRがパラメーター推定値の間に線形関係を課すため、それらの推定値はOLS推定値と異なる傾向があるためです。また、OLS推定値は不偏であるため、PCR推定値にバイアスがかかる」と思われます。直観的には良いヒューリスティックですが、完全に正しいわけではありません。
whuber

(a)データポイントが選択したPCの数よりも線形または低次元の多様体を占めておらず、(b)データポイントが完全に無相関でない場合、「PCRにバイアスがかかる」と言えますか?またはどのように?
ソレンHavelundウェリング

回答:


15

すべてのPCを使用するとどうなりますか?

すべてのPCが使用される場合、結果の回帰係数はOLS回帰で取得されたものと同一になるため、この手順は「主成分回帰」と呼ばれるべきではありません。これは標準的な回帰であり、回り道でのみ実行されます。

ZZバツバツ

したがって、何も得られません。

使用するPCが少数の場合はどうなりますか?

β^PCRβ^OLSβ^

これは、バイアスと分散のトレードオフの例です。収縮が機能する理由を参照してくださいさらなる一般的な議論のために。

yyy

なぜ高分散PCを使用するのが良いアイデアなのでしょうか?

これは質問の一部ではありませんでしたが、さらに読むために次のスレッドに興味があるかもしれません:主要な主成分は従属変数の予測力をどのように保持できますか?


YY

@whuber、確かに。私はその段落を書き直しましたが、うまくいけば今はもっと理にかなっています。ありがとう。
アメーバは2015

うーん、そうだね。バイアスとは、本質的に、いくつかのポイントが他のポイントよりも等しいことを意味します。これは、ノイズと外れ値の影響を減らしたい場合にまさに必要なものです(PCAが最適なツールかどうかはまだわかりません)。
gerrit

@gerritバイアスは重み付けと同等であるかのように記述しますが、それらは別個のものです。このコンテキストでのバイアスとは、係数推定値の期待値とその真の値との差を指します。
whuber

1
モデルは、応答がランダム変数であると想定しています。これにより、任意の手順を使用して、推定変数がランダム変数にもな​​ります。それらの期待値は、任意のランダム変数として定義されています。定義上、バイアスは期待値と真の値の差です。OLS係数の推定値のバイアスはゼロです。他の手順のバイアスはまだゼロである可能性があります。引用の論理は、OLSのように線形であるが、係数間に関係を課す手順は必然的にバイアスされるということです。その結論は多くの場合に当てはまりますが、すべてではありません。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.