プライマル、デュアル、カーネルリッジ回帰の違い


18

PrimalDual、およびKernel Ridge回帰の違いは何ですか?人々は3つすべてを使用していますが、異なるソースで誰もが使用する表記法が異なるため、私が従うことは困難です。

だから誰かが簡単な言葉でこれら3つの違いを教えてもらえますか?さらに、それぞれの長所または短所は何ですか?また、その複雑さは何ですか?

回答:


39

簡単な答え:PrimalとDualの間に違いはありません-それは解決策にたどり着く方法についてのみです。カーネルリッジ回帰は基本的に通常のリッジ回帰と同じですが、カーネルトリックを使用して非線形になります。

線形回帰

まず、通常の最小二乗線形回帰は、二乗誤差の合計が最小になるようにデータポイントのセットに直線を当てはめようとします。

ここに画像の説明を入力してください

を使用して最適なラインをパラメーター化し、各データポイントに対してです。してみましょう誤りである-予測と真の値との間の距離です。したがって、目標は二乗誤差の合計を最小化することですここで、 -各が行であり、すべてののベクトルを持つデータ行列。w(xi,yi)wTxiyiei=yiwTxiei2=e2=Xwy2X=[x1x2xn]xiy=(y1, ... ,yn)yi

したがって、目的は、解は(「正規方程式」として知られる)です。minwXwy2w=(XTX)1XTy

新しい未表示のデータポイント場合、ターゲット値をとして予測します。xy^y^=wTx

リッジ回帰

線形回帰モデルに多くの相関変数がある場合、係数決定が不十分になり、多くの分散が生じる可能性があります。この問題の解決策の1つは、重みを制限して、予算超えないようにすることです。これは、「重量減衰」とも呼ばれる正則化を使用するのと同等です。正しい結果が得られない場合があります(つまり、バイアスを導入することにより)。wwCL2

目標は、は正則化パラメーターです。数学を通して、次の解を得ます:。通常の線形回帰に非常に似ていますが、ここでは各対角要素にを追加します。minwXwy2+λw2λw=(XTX+λI)1XTyλXTX

をとしてことができることに注意してください(詳細はこちらを参照)。新しい未表示のデータポイントについて、ターゲット値をとして予測します。ましょう。それから。ww=XT(XXT+λI)1yxy^y^=xTw=xTXT(XXT+λI)1yα=(XXT+λI)1yy^=xTXTα=i=1nαixTxi

リッジ回帰デュアルフォーム

目的を別の方法で見ることができます-そして、次の二次計画問題を定義します:

mine,wi=1nei2 st forおよび。ei=yiwTxii=1..nw2C

これは同じ目的ですが、表現方法が多少異なります。ここでは、サイズの制約が明示的です。それを解決するために、ラグランジュを定義します-これは、主変数およびを含む原型です。それからと最適化します。二重定式化を得るために、見つかったとを戻します。wLp(w,e;C)weewewLp(w,e;C)

したがって、。と 微分をとることにより、と。せることによって、及びパッティングとへ戻る、我々 GETを二重ラグランジアンLp(w,e;C)=e2+βT(yXwe)λ(w2C)wee=12βw=12λXTβα=12λβewLp(w,e;C)Ld(α,λ;C)=λ2α2+2λαTyλXTαλC。微分wrtを取得すると、通常のカーネルリッジ回帰と同じ答えが得られます。派生物をとる必要はありません-これはに依存します。これは正則化パラメーターであり、正則化パラメーターも作成します。αα=(XXTλI)1yλCλ

次に、原型解にを置き、を取得します。したがって、双対形式は、通常のリッジ回帰と同じ解決策を提供し、同じ解決策を得るための異なる方法にすぎません。αww=12λXTβ=XTα

カーネルリッジ回帰

カーネルは、特定の機能空間で2つのベクトルの内積を計算するために使用されます。カーネルをとして見ることができますが、が何であるかはわかりません-私たちはそれが存在することだけを知っています。RBF、Polynonialなど、多くのカーネルがあります。kk(x1,x2)=ϕ(x1)Tϕ(x2)ϕ()

カーネルを使用して、リッジ回帰を非線形にすることができます。カーネルます。ましょう各行がある行列である、すなわちk(x1,x2)=ϕ(x1)Tϕ(x2)Φ(X)ϕ(xi)Φ(X)=[ϕ(x1)ϕ(x2)ϕ(xn)]

これで、リッジ回帰のソリューションを取得し、すべてのを置き換えることができます:。新しい未表示のデータポイント場合、ターゲット値をとして予測します。XΦ(X)w=Φ(X)T(Φ(X)Φ(X)T+λI)1yxy^y^=ϕ(x)TΦ(X)T(Φ(X)Φ(X)T+λI)1y

まず、をとして計算される行列で置き換えることができます。そして、は。そこで、ここで問題のすべてのドット積をカーネルの観点から表現することができました。Φ(X)Φ(X)TK(K)ij=k(xi,xj)ϕ(x)TΦ(X)Ti=1nϕ(x)Tϕ(xi)=i=1nk(x,xj)

最後に、(前述のように)させることにより、を取得します。α=(K+λI)1yy^=i=1nαik(x,xj)

参照資料


1
よく組織された議論に感銘を受けました。しかし、「外れ値」への初期の言及は私を混乱させました。ケースではなく変数に重み適用されるように見えるので、図で示されているように、リッジ回帰はどのように正確に外れたケースに対してソリューションを堅牢にするのに役立ちますか?w
whuber

素晴らしい答え、アレクセイ(私はそれを「単純な言葉」とは呼びませんが)!質問なしで+1。LaTeXで書くのが好きですね。
アレクサンドルブレフ

2
ここで基本的なことを混乱させているのではないかと思います。知る限りでは、リッジ回帰は「ノイズのある観測」に対する応答でも対処方法でもありません。OLSはすでにそれを行っています。リッジ回帰は、リグレッサ間のほぼ共線性に対処するために使用されるツールです。これらの現象は、従属変数のノイズとはまったく異なります。
whuber

1
+1 whuber。Alexeyあなたは正しいです。つまり、利用可能なデータに対してパラメーターが多すぎる-実際にはノイズではありません。[および固定サンプルサイズに十分な次元を追加すると、 'any'データセットが共線性になります]。したがって、RRのより良い2次元画像は、(1,0)に単一のポイントを持つ[0,1]の周りにクラスター化されたすべてのポイントになります[勾配パラメーターの「正当化」]。ESL図3.9、67ページweb.stanford.edu/~hastie/local.ftp/Springer/OLD/…を参照してください。また、主なコスト関数を見てください:重量を1単位増やすには、エラーを単位減らす必要があります1/λ
-seanv507

1
対角要素にを追加するのではなく、リッジ回帰セクションの減算(?)を意味したと思います。編集を適用しました。λXTX
ヘテロスケダスティクスジム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.