統計的手順の前提は何ですか?
私は統計学者ではないので、これは間違っているかもしれませんが、「仮定」という言葉はしばしば非常に非公式に使用され、さまざまなものを指すことができると思います。私にとって、「仮定」とは、厳密に言えば、理論的な結果(定理)のみが持つことができるものです。
人々が線形回帰の仮定について話すとき(詳細な議論についてはこちらを参照)、彼らは通常、無相関、等分散、ゼロ平均誤差の仮定の下で、OLS推定は青であると言うガウス・マルコフの定理を参照していますすなわち、不偏であり、最小の分散を持ちます。ガウス-マルコフの定理の文脈以外では、「回帰の仮定」が何を意味するのかさえ明確ではありません。
同様に、たとえば1サンプルt検定の仮定は、統計がt分布であり、したがって推論が有効であるという仮定を参照します。「定理」と呼ばれていませんが、それは明確な数学的な結果である:場合は、n個のサンプルが正常に配布され、その後、T -statisticスチューデント続くのtと-distributionをN - 1自由度。ttnttn − 1
ペナルティ付き回帰手法の仮定
ここで、正規化された回帰手法を考えてみましょう:リッジ回帰、なげなわ、エラスティックネット、主成分回帰、部分最小二乗回帰など。これらの方法のポイントは、回帰パラメーターの偏った推定を行い、期待値を減らすことですバイアスと分散のトレードオフを利用した損失。
これらのメソッドにはすべて、1つまたは複数の正則化パラメーターが含まれており、これらのパラメーターの値を選択するための明確なルールはありません。通常、最適な値はある種の相互検証手順を介して検出されますが、さまざまな相互検証方法があり、多少異なる結果が得られる可能性があります。さらに、相互検証に加えて、いくつかの追加の経験則を呼び出すことも珍しくありません。その結果、実際の結果のβこれらのペナルティ回帰法のいずれかのは、実際には完全に法で規定されていないが、アナリストの選択に依存することができます。β^
したがってについての理論的な最適性のステートメントがあることができる方法私に明確ではないβ、と私はわからないので、このようなリッジ回帰として罰せ方法の「仮定」(その存在または不在)の話をすることはまったく理にかなっていること。β^
しかし、リッジ回帰が常にOLSに勝るという数学的な結果はどうでしょうか?
Hoerl&Kennard(1970)の「リッジ回帰:非直交問題のバイアス推定」では、βのリッジ回帰推定値がOLS推定値よりも厳密に小さい予想損失を持つように、正則化パラメーターλの値が常に存在することが証明されました。これは驚くべき結果です。議論についてはこちらをご覧ください。ただし、データセットに依存するλの存在を証明するだけです。λβλ
この結果は実際には仮定を必要とせず、常に真実ですが、リッジ回帰に仮定がないと主張するのは奇妙です。
わかりましたが、リッジ回帰を適用できるかどうかはどうすればわかりますか?
仮定について話せなくても、経験則について話せます。相関回帰を使用した多重回帰の場合、リッジ回帰が最も役立つ傾向があることはよく知られています。多くの場合、大きなマージンでOLSを上回る傾向があることはよく知られています。不均一分散、相関エラー、その他の場合でも、パフォーマンスを上回る傾向があります。したがって、単純な経験則では、多重共線データがある場合は、リッジ回帰と交差検証が良いアイデアであると言います。
恐らく他の有用な経験則と取引のトリックがあるでしょう(例えば、グロス異常値をどうするかなど)。しかし、それらは仮定ではありません。
pp