ガウス過程回帰おもちゃ問題


9

ガウスプロセス回帰の直感を得ようとしていたため、簡単な1Dおもちゃの問題を作成して試してみました。入力としてを取り、応答としてをました。(からの「インスピレーション」)xi={1,2,3}、Y = X 2yi={1,4,9}y=x2

回帰には、標準的な二乗指数カーネル関数を使用しました。

k(xp,xq)=σf2exp(12l2|xpxq|2)

標準偏差ノイズがあると仮定したので、共分散行列は次のようになります。σn

Kpq=k(xp,xq)+σn2δpq

ハイパー、データの対数尤度を最大化することによって推定しました。ポイントで予測を行うために、平均と分散をそれぞれ次のように見つけましたX (σn,l,σf)x

σ 2 X = K X X - K T K + σ 2 N I - 1つの K

μx=kT(K+σn2I)1y
σx2=k(x,x)kT(K+σn2I)1k

ここで、はと入力間の共分散のベクトルであり、は出力のベクトルです。X Ykxy

結果を以下に示します。青い線は平均値で、赤い線は標準偏差間隔を示します。1<x<3

結果

これが正しいかどうかはわかりません。私の入力(「X」でマークされています)は青い線上にありません。私が目にするほとんどの例には、入力と交差する平均があります。これは予想される一般的な機能ですか?


1
私が推測する必要がある場合、あなたが見ている例では、残留エラーはありませんでした。その場合、ラインはすべてのポイントを通過します。
2013

@Guyはまさに正しい。

回答:


10

データポイントを通過する平均関数は通常、過剰適合の指標です。限界尤度を最大化してハイパーパラメータを最適化すると、より複雑なものを正当化するのに十分なデータがない限り、非常に単純なモデルが優先される傾向があります。データポイントが3つしかないため、多少ノイズが少ないラインになっているため、見つかったモデルは私にはかなり合理的であるように見えます。基本的に、データは、中程度のノイズを伴う線形の基礎関数、またはノイズがほとんどない中程度の非線形の基礎関数として説明できます。前者は2つの仮説の中でより単純であり、「オッカムのかみそり」に支持されています。


入力いただきありがとうございます。「オーバーフィッティング」について詳しく教えてください。それはポジティブ/ネガティブな機能ですか?
Comp_Warrior 2013

過剰適合はネガティブなものです。基本的に、モデルがデータのランダムな変動を記憶しているため、汎化のパフォーマンスが低下する傾向があります。理想的には、データを汚染しているノイズを無視しながら、モデルがデータの基礎となる形式を学習するようにします。ほとんどの優れた機械学習教科書は、これを初期の章で扱います。
ディクランMarsupial 2013

興味がないのに、なぜ反対票なのか?
ディクランMarsupial 2013

私はあなたに反対票を投じませんでした。実際私は賛成票を投じました!
Comp_Warrior 2013

2
問題ありませんComp_Warrior、私はあなたであるとは思いませんでしたが、誰かが私の回答に反対票を投じました。私たちは皆間違いやすいので、もし私の答えに何か問題があれば、私はそれを修正したいと思っています。
ディクランMarsupial 2013

7

クリギング推定量にノイズ項を追加して使用しています(ガウス過程の文献ではナゲット効果として知られています)。ノイズ項がゼロに設定されている場合、つまり、

σn2δpq=0

次に、予測は補間として機能し、サンプルデータポイントを通過します。


3

これは私には問題ありません。RasmussenによるGPブックでは、平均関数が各データポイントを通過しない例を明確に示しています。回帰直線は基礎となる関数の推定値であり、観測値は基礎となる関数の値にノイズを加えたものであると想定しています。3つのポイントすべてに基づく回帰直線の場合、基本的には、観測値にノイズがないことを示しています。

設定し、他のハイパーパラメーターを最適化するだけで、ノイズなしの仮定を強制できます。σn=0

また、ハイパーパラメーターが比較的大きな値に設定されており、非常に浅い関数を提供していると思います。l

さまざまな小さい値で固定してみて、曲線がどのように変化するかを確認できます。おそらくを少し小さくすると、回帰直線はすべてのデータポイントを通過します。lll

Dikran Marsupialが述べたように、これはガウスプロセスの組み込み機能であり、限界尤度は特定度が高すぎるモデルにペナルティを課し、多くのデータセットを説明できるモデルを優先します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.