回答:
Hastieらによる統計学習の要素。:(3.4.1項、式3.41)以下のようにリッジ回帰を定義βをつまり、明示的にインターセプト用語を除外 β 0リッジペナルティから。
それから彼らは書く:
切片こと[...]通知ペナルティ項のうち残されています。切片のペナルティにより、手順はYに選択された原点に依存します。つまり、各ターゲットy iに定数cを追加すると、同じ量cだけ予測がシフトするわけではありません。
実際、切片用語の存在下で、追加全てにY iが単につながるβ 0増Cよく、それに応じて、すべての予測値として、Y iは、また増加するC。切片が罰せされた場合、これは真実ではありません:β 0未満で増加する必要がありますC。
実際、線形回帰には、適切な(ペナルティのない)切片項があることに依存する、便利で便利なプロパティがいくつかあります。例えば、平均値との平均値Y iが等しく、かつ(従って)二乗重相関係数Rは、決意の係数に等しい。R 2:(R )2 = COS 2(Y、Y)= ‖ Y ‖ 2例えば説明のために、このスレッドを参照してください。複数の相関係数の幾何学的解釈Rと決意の係数R2を。
インターセプトにペナルティを課すと、そのすべてが真実ではなくなります。
収縮または正則化の目的を思い出してください。これは、学習アルゴリズムがトレーニングデータをオーバーフィットするのを防ぐため、または同等に-任意の大きなパラメーター値を選択しないようにするためです。これは、ノイズが存在する場合のトレーニング例が少ないデータセットの場合によく起こります(ノイズの存在とその影響に関する非常に興味深い議論は、Yaser Abu-Mustafaによる「データから学ぶ」で説明されています)。正則化のないノイズの多いデータで学習されたモデルは、いくつかの目に見えないデータポイントでパフォーマンスが低下する可能性があります。
これを念頭に置いて、2つのクラスに分類する2Dデータポイントがあるとします。バイアスパラメータを除いてすべてを固定し、バイアス項を変更すると、境界が上下に移動します。これをより高次元の空間に一般化できます。
学習アルゴリズムでは、グロス損失値が発生する可能性があるため、バイアス項に任意の大きな値を設定できません(モデルはトレーニングデータに適合しません)。つまり、何らかのトレーニングセットが与えられた場合、ユーザー(または学習アルゴリズム)は、プレーンを真のプレーンから任意に遠ざけることはできません。
したがって、バイアス項を縮小する理由はありません。学習アルゴリズムは、過剰適合のリスクなしに適切なものを見つけます。
最後のメモ:いくつかの論文で、分類のために高次元空間で作業する場合、バイアス項を厳密にモデル化する必要がないことを確認しました。これは、より多くの次元が追加されると、2つのクラスを分離する可能性が増えるため、線形に分離可能なデータに対して機能する場合があります。
切片の用語は、絶対に収縮の影響を受けません。一般的な「収縮」(つまり正則化)定式化は正則化項を損失関数に入れます。例えば:
今、私はニューラルネットワークの正則化について話すことができません。ニューラルネットワークでは、バイアス項の縮小を回避するか、上記の定式化とは異なる正則化損失関数を設計することができます。知りません。しかし、私は重みとバイアス項が一緒に正規化されていることを強く疑っています。
最も簡単な説明をしてから展開します。
ゼロに縮小すると、モデルは次のようになります。
これは、インターセプトの主な目的、つまり平均値を取得することを示しています。多くの人は、線形回帰における切片の重要性を認識していないと思います。「本物」のあまりセクシーではない弟と見下されがちです予測子の。ただし、「原点からの回帰」からわかるように、モデルから切片をドロップすると、望ましくない結果が生じることがよくあります。
ここで、すべての真正な係数を縮小する場合の完全性のために 切片を保持する アウト、あなたはこれを得る:
このモデルは元のモデルほどセクシーではありませんが、実際はかなり馬鹿げています。しかし、それは合法的なモデルです。たとえば、ANOVAを実行できます。
結論として、インターセプトが意図したとおりに機能するように、インターセプトを縮小しないようにする必要があります:シリーズの平均をキャプチャします