ガウス過程での観測のマージ


11

回帰にはガウス過程(GP)を使用しています。

私の問題では、2つ以上のデータポイントが長さに対して相対的に近いことがよくあります問題のスケール。また、観測は非常に騒々しいことができます。計算を高速化し、測定精度を向上させるために、より大きな長さスケールでの予測に関心がある限り、互いに近い点のクラスターをマージ/統合するのは自然なことのようです。x(1),x(2),

これを行うには高速だが半原則的な方法は何ですか?

2つのデータポイントは完全に重複した場合、および観測ノイズ(すなわち、尤度)は、おそらくheteroskedasticしかしガウスであり、公知の、処理の自然な方法は、それらを単一のデータポイントにマージするようです:x(1)=x(2)

  • x¯x(k)、のために。k=1,2

  • 観測値は、相対精度で重み付けされた観測値平均です:。y¯y(1),y(2)y¯=σy2(x(2))σy2(x(1))+σy2(x(2))y(1)+σy2(x(1))σy2(x(1))+σy2(x(2))y(2)

  • 等しい観測に関連するノイズ。σy2(x¯)=σy2(x(1))σy2(x(2))σy2(x(1))+σy2(x(2))

ただし、近接しているが重複していない 2つのポイントをどのようにマージする必要がありますか?

  • は、やはり相対的信頼性を使用して、2つの位置の加重平均である必要があると思います。理論的根拠は、重心の議論です(つまり、非常に正確な観測を、あまり正確でない観測のスタックとして考えます)。x¯

  • 用上記と同じ式。y¯

  • 観測に関連するノイズについては、上記の式に加えて、データポイントを移動しているため、ノイズに補正項を追加する必要があるのでしょうか。基本的に、と(それぞれ、信号分散と共分散関数の長さスケール)に関連する不確実性が増加します。この用語の形式はわかりませんが、共分散関数が与えられた場合の計算方法について、いくつかの仮のアイデアがあります。σf22

先に進む前に、すでに何かがそこにあるのかどうか疑問に思いました。これが賢明な手順であると思われる場合、またはより迅速な方法がある場合。

私は文献で見つけることができる最も近いものは、この論文である:E. SnelsonとZ. Ghahramaniは、擬似入力を使用してスパースガウシアンプロセスは、'05 NIPS。しかし、それらの方法は(比較的)関与しており、疑似入力を見つけるために最適化が必要です。


1
ちなみに、おおよその推論やいくつかの大規模な方法を使用できることを感謝していますが、これは別の点です。
lacerbi 2015

回答:


4

素晴らしい質問と、あなたが提案していることは合理的に聞こえます。しかし、個人的には、効率を上げるために別の方法で進めます。先ほど述べたように、近接する2つの点は追加情報をほとんど提供しないため、モデルの有効自由度は観測されるデータ点の数よりも少なくなります。そのような場合、GPMLでよく説明されているNystromsメソッドを使用する価値があります(スパース近似の章はhttp://www.gaussianprocess.org/gpml/にあります)。この方法は実装が非常に簡単で、最近、Rudiらによって非常に正確であることが証明されています。(http://arxiv.org/abs/1507.04717


おかげで、Nystromの方法は興味深いアプローチのようです。詳しく調べます。ただし、最初の投稿で、観測のノイズが非常に高くなる可能性があるため(信号よりも大きい可能性がある)、近くのポイントを平均化すると追加情報が得られることを忘れていました。
lacerbi

1
まあそれは実際にはNystromsメソッドを使用する理由のさらに多くです。高ノイズは有効自由度を減少させるため、最初のm個の固有値のみが信号を保持し、残りが単にノイズである場合、Nystromsメソッドは最初のm未満のすべてのものをドロップします。あなたが探しているものの法案に合うと思います。がんばって!
j__

ニストロム法は私が提案するものです(+1)。2つの真のデータポイントが1つの単一のポイントと同じ効果を持つ可能性は低いため、ポイントを1つにマージすると、モデルの限界尤度の推定で問題が発生する可能性があります。私のアドバイスは、2つの点を別々に保つことですが、Nystromのエモッドが達成すべき計算をより安価にする方法を見つけることです
Dikran Marsupial

どのような問題ですか?ガウスノイズのある2つのオーバーラップポイントのケースを考慮する場合、平均化方法は正確です(観測ノイズの減少を追跡している限り)。問題の長さスケールに近い点に対して同じ引数が機能しない理由がわかりません(距離が増えると近似が悪化します)。おそらく、これはNystromの方法がより原則的な方法で行うことです-私はまだ詳細を理解する必要があります。精度と速度の両方の点で、平均化法と比較したいのですが。ありがとう
lacerbi

1
@Seeda我々は、nystromを通常の短縮された時間conpkexityではなく、事前調整された効果的なものとして使用していないので、そうです。
j__

1

また、ガウスプロセス回帰を実行するときに、観測値のマージを調査しています。私の問題では、共変量は1つだけです。

ニストロム近似が望ましいことに必ずしも同意するかどうかはわかりません。特に、マージされたデータセットに基づいて十分な近似が見つかると、Nystrom近似を使用する場合よりも計算が速くなります。

以下は、1000データポイントと事後GP平均、レコードがマージされた事後GP平均、およびNystrom近似を使用した事後GP平均を示すグラフです。レコードは、順序付けられた共変量の同じサイズのバケットに基づいてグループ化されました。近似の順序は、レコードをマージするときのグループの数とNystromの近似の順序に関係します。マージ手法とNystrom近似はどちらも、近似次数が点の数と等しい場合、標準のGP回帰と同じ結果を生成します。

この場合、近似の次数が10の場合、マージアプローチが望ましいようです。次数が20の場合、Nystrom近似からの平均は、正確なGP事後平均と視覚的に区別できませんが、マージされた観測に基づく平均はおそらく十分です。順序が5の場合、どちらもかなり貧弱です。

ここに画像の説明を入力してください ここに画像の説明を入力してください ここに画像の説明を入力してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.