収縮という言葉は、特定のサークルの多くで使用されています。しかし、収縮とは何か、明確な定義はないようです。時系列(またはいくつかのプロセスの観測のコレクション)がある場合、その系列のある種の経験的な収縮を測定するためのさまざまな方法は何ですか?私が話し合うことができる理論的な収縮にはどのような種類がありますか?収縮は予測にどのように役立ちますか?人々はいくつかの良い洞察や参照を提供できますか?
収縮という言葉は、特定のサークルの多くで使用されています。しかし、収縮とは何か、明確な定義はないようです。時系列(またはいくつかのプロセスの観測のコレクション)がある場合、その系列のある種の経験的な収縮を測定するためのさまざまな方法は何ですか?私が話し合うことができる理論的な収縮にはどのような種類がありますか?収縮は予測にどのように役立ちますか?人々はいくつかの良い洞察や参照を提供できますか?
回答:
1961年にジェームズとスタインは、「二次損失による推定」と呼ばれる記事https://projecteuclid.org/download/pdf_1/euclid.bsmsp/1200512173を公開しました。具体的には収縮という用語は作り出されていませんが、通常のデータの通常のMLE(各コンポーネントのサンプル平均)よりもリスク(予想損失)が少ない高次元統計(実際には3パラメーターの場所でも)のミニマックス推定量について説明します。ブラッドリー・エフロンは彼らの発見を「戦後の数学的統計の最も印象的な定理」と呼んでいます。この記事は3,310回引用されました。
1983年のコパスは、「収縮」という言葉を作り出した最初の記事「回帰、予測、および収縮」を書いています。抽象的に暗黙的に定義されています。
新しいデータへの回帰予測子の適合は、ほとんどの場合、元のデータへの適合よりも劣ります。この収縮を予測すると、Steinタイプの予測子が得られます。これは、特定の仮定の下で、最小二乗よりも均一に低い予測平均二乗誤差を与えます。
そして、すべての後続の研究では、縮小は、許容可能な推定値および/またはミニマックス推定量を見つけるコンテキストでの予測と推定のサンプル外有効性の動作特性(およびその推定値)を指しているようです。
これは正則化についてです。曲線を当てはめ、二乗損失関数を使用するとします(別のものを選択できます)。沿ってfit
その曲線を生成したプロセスを管理するパラメーターを回復したいとします。(たとえば)100次多項式を使用してこの曲線を近似するとします。曲線のねじれやノイズをすべてオーバーフィットまたはキャプチャする可能性が高いです。さらに、特定のトレーニングデータ間隔外の予測機能は、おそらく非常に貧弱です。したがって、目的関数に正則化項が追加され、重みが正則化係数(l_1、l_2またはカスタム)で乗算されます。理解しやすいと思われるl_2の場合、これは大きなパラメーター値が強制的に縮小を強制的に減少させるという効果があります。正則化または縮小は、アルゴリズムをより優れたソリューションに導くものと考えることができます。