で大気科学における統計的手法の予測の中で非常に強いintercorrelations(第3版、ページ559から560)がある場合は、複数の線形回帰は、問題を引き起こす可能性があること、ダニエル・ウィルクス・ノート:
多重線形回帰で発生する可能性のある病状は、強い相互相関を持つ予測変数のセットが不安定な回帰関係の計算につながる可能性があることです。
(...)
次に、主成分回帰を導入します。
この問題を解決する方法は、最初に予測子をその相関関係がゼロである主成分に変換することです。
ここまでは順調ですね。しかし、次に、彼は説明していない(または少なくとも私が理解するのに十分な詳細ではない)いくつかの声明を出します:
すべての主成分が主成分回帰で保持されている場合、完全な予測子セットへの従来の最小二乗近似では何も得られません。
(..)および:
元の予測子に関して主成分回帰を再表現することは可能ですが、1つまたは少数の主成分予測子のみが使用されている場合でも、結果には一般にすべての元の予測子変数が含まれます。この再構成された回帰は偏りがありますが、多くの場合、分散ははるかに小さく、全体としてMSEが小さくなります。
私はこれらの2つの点を理解していません。
もちろん、すべての主成分が保持されている場合、元の空間で予測子を使用していたときと同じ情報を使用します。ただし、相互相関の問題は、主成分空間で作業することにより除去されます。私たちはまだ過剰適合しているかもしれませんが、それが唯一の問題ですか?何も得られないのはなぜですか?
第二に、主成分を切り捨てたとしても(おそらくノイズ低減および/または過剰適合を防ぐために)、なぜ、どのようにこれが偏った再構成回帰につながるのでしょうか?どのように偏ったのですか?
書籍のソース:Daniel S. Wilks、Atmospheric Methods in the Atmospheric Sciences、第3版、2011年。InternationalGeophysics Series Volume 100、Academic Press。