ガウス過程と相関


8

私はなぜ人々がガウス過程(GP)を使って未知の(時には決定論的)関数をモデル化するのか疑問に思っています。たとえば、未知の関数考えます。この関数から3つの独立した観測結果があります。 y=f(x)

(x1,y1);(x2,y2);(x3,y3)

基になる関数を学ぶために、GPはすべての出力を共通の多変量正規分布として扱う一般的なノンパラメトリック手法です。特定の共分散関数 を想定し、以下を想定します。 GPは次の形式を取ります K(xi,yi)

y=(y1,y2,y3);X=(x1,x2,x3)
y|XN(0,[K(x1,x1)K(x1,x2)K(x1,x3)K(x1,x2)K(x2,x2)K(x2,x3)K(x1,x3)K(x2,x3)K(x3,x3) ])

観測は独立しています。それらの唯一の共通点は、それらが同じ基本的な機能に由来することです。 (xi,yi)

私の主な質問は次のとおりです。なぜとを相関させる必要があるのですか?それは間違ったモデルではありませんか?どのようなについても、良い予測結果が得られると想定できるのはなぜですか。(xi,yj)(xl,ym)y|x

この問題で私が見逃している側面や、なぜ相関を強制することが役立つのかわかりません。

回答:


10

カーネルを選択することは、モデルを選択する関数のクラスを選択することと同じです。カーネルを選択することが多くの仮定をエンコードする大きなもののように感じられる場合、それはそれが理由です!この分野に不慣れな人は、カーネルの選択についてあまり考えず、たとえ適切でなくてもガウスカーネルを採用するだけです。

カーネルが適切であるかどうかをどのように判断するのですか?対応する関数空間の関数がどのように見えるかを考える必要があります。ガウスカーネルは非常に滑らかな関数に対応しており、そのカーネルが選択されると、滑らかな関数がまともなモデルを提供するという仮定が行われます。常にそうであるとは限りません。関数クラスをどのように見せたいかについてのさまざまな仮定をエンコードするカーネルは他にもたくさんあります。周期的な関数をモデル化するためのカーネル、非定常カーネル、およびその他のホスト全体があります。たとえば、チャールズマーティンのブログ(こちら)で示されているように、ガウスカーネルによってエンコードされた滑らかさの仮定はテキスト分類には適していません。

2つの異なるカーネルに対応するスペースからの関数の例を見てみましょう。最初はガウスカーネルで、もう1つはブラウン運動カーネル。各スペースからのランダムな描画は次のようになります。k1(x,x)=exp(γ|xx|2)k2(x,x)=min{x,x}

k1

k2

明らかに、これらは優れたモデルとは何かについて非常に異なる仮定を表しています。

また、必ずしも相関を強制しているわけではないことに注意してください。平均関数をとし、共分散関数をます。今私たちのモデルは つまり、線形回帰を回復しました。μ(x)=xTβk(xi,xj)=σ21(i=j)

Y|XN(Xβ,σ2I)

しかし、一般に、この近くのポイント間の相関は、非常に有用で強力なモデルです。石油掘削会社を経営していて、新しい石油埋蔵量を見つけたいと想像してみてください。ドリルするのは非常にコストがかかるので、できる限り数回ドリルダウンする必要があります。ドリルダウンしたとしましょうn=5穴と私たちは次の穴があるべき場所を知りたいです。地殻内の油の量は滑らかに変化していると想像できるので、ガウシアンカーネルを使用してガウシアンプロセスでドリルインすることを検討している領域全体の油の量をモデル化します。本当に近い場所は本当に同じ量の油を持ち、本当に離れた場所は事実上独立していると言っています。ガウスカーネルも定常的であり、これはこの場合は妥当です。定常性は、2点間の相関はそれらの間の距離にのみ依存することを示します。次に、モデルを使用して、次にドリルする場所を予測できます。ベイジアン最適化で1つのステップを実行しましたこれは、GPの相関関係の側面が好きな理由を直感的に理解するのに非常に良い方法だと思います。

もう1つの優れたリソースはJones et alです。(1998)。彼らはモデルをガウス過程とは呼びませんが、それはそうです。このペーパーは、決定論的な設定においても、近くのポイント間の相関を使用する理由を非常によく理解しています。

最後に、良い予測結果が得られるとは誰も思っていません。これは、相互検証などによって検証したいものです。

更新

私たちがモデル化している相関関係の性質を明確にしたいと思います。最初に線形回帰を考えてみましょう。このモデルでは、 for。ただし、場合、 Y|XN(Xβ,σ2I)YiYj|Xij||x1x2||2<ε

(E(Y1|X)E(Y2|X))2=(x1Tβx2Tβ)2=x1x2,β2||x1x2||2||β||2<ε||β||2.

したがって、これは、入力とが非常に近い場合、と平均が非常に近いことを示しています。これは、 x1x2Y1Y2

P(Y1>E(Y1|X) | Y2>E(Y2|X))=P(Y1>E(Y1|X)).

それらが相関している場合、が平均値を上回っていることを知ると、について何かがわかります。Y2Y1

したがって、維持しましょう。ただし、による相関を追加します。は小さいという同じ結果がまだありますが、今では場合その平均値よりも大きい場合、たとえば、その後、おそらくあまりにもなります。これは、追加した相関です。μ(x)=xTβCov(Yi,Yj)=k(xi,xj)||x1x2||2<ε(E(Y1|X)E(Y2|X))2Y1Y2


コメントありがとうございます。あなたの説明はとても役に立ちます。ただし、私の質問は主に、タプルと間の相関関係は実際には存在しないという考えに焦点を当てています。次に、GPは多変量正規分布の相関を強制します(の場合を除く)。この相関は確率変数の相関と同じですか?または関数関係をモデル化しているので、定義が異なりますか?この相関は解釈可能ですか?そして、なぜそれが役立つのですか?(xi,xj)(xl,xm)K=1(i=j)
Wis 2017年

また、はから独立していないと言えるでしょう。、それらは同じ基本的な関数に由来し、両方が依存しているからです。これがに相関がある必要がある理由です。これらの質問にご協力いただきありがとうございますyiyjx
Wis

@ kon7うまくいけば役立つ相関関係の更新を追加しました。
jld

本当にありがとうございます。あなたの答えは素晴らしいです。私は答えを受け入れました。まだ小さな質問があります。追加した情報のタイプ、それを相関と呼ぶことができますか?相関の典型的な統計的意味では?ここではランダム変数ではなく タプルを参照しているため、関数相関の意味で意味がありますか(xi,yi)ys
Wis

@ kon7共分散行列使用しているため、これは完全に標準的な相関の意味です。はこれを計算する方法ですが、は標準的な定式化で決定論的であり、唯一の共分散は間です。KXxiYi
jld 2017年

0

とが互いに類似している場合、つまりが大きい場合、とも互いに類似しているはずです。したがって、(近似する関数の)入力空間の近さは、出力空間の近さになります。これは、多くのアプリケーションにとって妥当な仮定です。たとえば、2人の生徒が同様の高校GPAを取得している場合、SAT試験でも同様の成績が期待されます。xixlk(xi,xl)yiyl

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.