回帰でバイアス(切片)項を縮小しない理由


21

線形モデルのためにy=β0+バツβ+ε、収縮用語は常にPβ

我々はバイアス(切片)用語収縮しないという理由は何であるβ0?ニューラルネットワークモデルのバイアス項を縮小する必要がありますか?


scikit-learnで使用されるロジスティック回帰のliblinearライブラリは、バイアス項にペナルティを科します(これは実装アーティファクトであり、バイアスは追加の入力変数として処理されます)
seanv507

回答:


33

Hastieらによる統計学習の要素:(3.4.1項、式3.41)以下のようにリッジ回帰を定義βをつまり、明示的にインターセプト用語を除外 β 0リッジペナルティから。

β^rdge=argmnβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2},
β0

それから彼らは書く:

切片こと[...]通知ペナルティ項のうち残されています。切片のペナルティにより、手順はYに選択された原点に依存します。つまり、各ターゲットy iに定数cを追加すると、同じ量cだけ予測がシフトするわけではありません。β0Ycyic

実際、切片用語の存在下で、追加全てにY iが単につながるβ 0Cよく、それに応じて、すべての予測値として、Y iは、また増加するC。切片が罰せされた場合、これは真実ではありません:β 0未満で増加する必要がありますCcyiβ0cy^icβ0c

実際、線形回帰には、適切な(ペナルティのない)切片項があることに依存する、便利で便利なプロパティがいくつかあります。例えば、平均値との平均値Y iが等しく、かつ(従って)二乗重相関係数Rは、決意の係数に等しい。R 2R 2 = COS 2YY= Y2yiy^iRR2例えば説明のために、このスレッドを参照してください。複数の相関係数の幾何学的解釈Rと決意の係数R2を

R2=cos2y^y=y^2y2=R2
RR2

インターセプトにペナルティを課すと、そのすべてが真実ではなくなります。


2

収縮または正則化の目的を思い出してください。これは、学習アルゴリズムがトレーニングデータをオーバーフィットするのを防ぐため、または同等に-任意の大きなパラメーター値を選択しないようにするためです。これは、ノイズが存在する場合のトレーニング例が少ないデータセットの場合によく起こります(ノイズの存在とその影響に関する非常に興味深い議論は、Yaser Abu-Mustafaによる「データから学ぶ」で説明されています)。正則化のないノイズの多いデータで学習されたモデルは、いくつかの目に見えないデータポイントでパフォーマンスが低下する可能性があります。

これを念頭に置いて、2つのクラスに分類する2Dデータポイントがあるとします。バイアスパラメータを除いてすべてを固定し、バイアス項を変更すると、境界が上下に移動します。これをより高次元の空間に一般化できます。

学習アルゴリズムでは、グロス損失値が発生する可能性があるため、バイアス項に任意の大きな値を設定できません(モデルはトレーニングデータに適合しません)。つまり、何らかのトレーニングセットが与えられた場合、ユーザー(または学習アルゴリズム)は、プレーンを真のプレーンから任意に遠ざけることはできません。

したがって、バイアス項を縮小する理由はありません。学習アルゴリズムは、過剰適合のリスクなしに適切なものを見つけます。

最後のメモ:いくつかの論文で、分類のために高次元空間で作業する場合、バイアス項を厳密にモデル化する必要がないことを確認しました。これは、より多くの次元が追加されると、2つのクラスを分離する可能性が増えるため、線形に分離可能なデータに対して機能する場合があります。


「分類のために高次元空間で作業する場合、バイアス項を厳密にモデル化する必要はありません」と言ういくつかの論文への参照を与えることができますか?
チャンドレッシュ16

1

切片の用語は、絶対に収縮の影響を受けません。一般的な「収縮」(つまり正則化)定式化は正則化項を損失関数に入れます。例えば:

RSSβ=yバツβ2

RegあなたはlarzedLossβ=RSSβλfβ

fβλ

βPββ0y=バツβ+ϵバツ1s

今、私はニューラルネットワークの正則化について話すことができません。ニューラルネットワークでは、バイアス項の縮小を回避するか、上記の定式化とは異なる正則化損失関数を設計することができます。知りません。しかし、私は重みとバイアス項が一緒に正規化されていることを強く疑っています。


2
それは慣習に依存しますが、例えば、ハスティ等による統計的学習の要素。切片がペナルティを受けないようにリッジ回帰を定義します(私の答えを参照)。これは他の方法よりも標準的なものだと思います。
アメーバは、モニカを復活させる

1

David Marxによる上記の答えが正しいかどうかはわかりません。Andrew Ngによれば、慣例により、バイアス/切片係数は通常、線形回帰で正則化されず、いずれの場合でも正則化されているかどうかは大きな違いを生じません。


1

最も簡単な説明をしてから展開します。

ゼロに縮小すると、モデルは次のようになります。

yt=εt
このモデルの1つの問題: E[εt]=E[yt]0、線形回帰の外因性の仮定に違反しています。したがって、推定された係数には不偏などの優れた特性はありません。

これは、インターセプトの主な目的、つまり平均値を取得することを示しています。多くの人は、線形回帰における切片の重要性を認識していないと思います。「本物」のあまりセクシーではない弟と見下されがちですβ予測子の。ただし、「原点からの回帰」からわかるように、モデルから切片をドロップすると、望ましくない結果が生じることがよくあります。

ここで、すべての真正な係数を縮小する場合の完全性のために β 切片を保持する β0 アウト、あなたはこれを得る:

yt=β0+εt
E[yt]=β0+E[εt]
ここには、まだあります E[εt]=0 インターセプトはデータの平均をキャプチャするため β0=μ=E[yt]

このモデルは元のモデルほどセクシーではありませんが、実際はかなり馬鹿げています。しかし、それは合法的なモデルです。たとえば、ANOVAを実行できます。

結論として、インターセプトが意図したとおりに機能するように、インターセプトを縮小しないようにする必要があります:シリーズの平均をキャプチャします β0=E[yt]

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.