回帰にはガウス過程(GP)を使用しています。
私の問題では、2つ以上のデータポイントが長さに対して相対的に近いことがよくあります問題のスケール。また、観測は非常に騒々しいことができます。計算を高速化し、測定精度を向上させるために、より大きな長さスケールでの予測に関心がある限り、互いに近い点のクラスターをマージ/統合するのは自然なことのようです。
これを行うには高速だが半原則的な方法は何ですか?
2つのデータポイントは完全に重複した場合、および観測ノイズ(すなわち、尤度)は、おそらくheteroskedasticしかしガウスであり、公知の、処理の自然な方法は、それらを単一のデータポイントにマージするようです:
、のために。
観測値は、相対精度で重み付けされた観測値平均です:。
等しい観測に関連するノイズ。
ただし、近接しているが重複していない 2つのポイントをどのようにマージする必要がありますか?
は、やはり相対的信頼性を使用して、2つの位置の加重平均である必要があると思います。理論的根拠は、重心の議論です(つまり、非常に正確な観測を、あまり正確でない観測のスタックとして考えます)。
用上記と同じ式。
観測に関連するノイズについては、上記の式に加えて、データポイントを移動しているため、ノイズに補正項を追加する必要があるのでしょうか。基本的に、と(それぞれ、信号分散と共分散関数の長さスケール)に関連する不確実性が増加します。この用語の形式はわかりませんが、共分散関数が与えられた場合の計算方法について、いくつかの仮のアイデアがあります。
先に進む前に、すでに何かがそこにあるのかどうか疑問に思いました。これが賢明な手順であると思われる場合、またはより迅速な方法がある場合。
私は文献で見つけることができる最も近いものは、この論文である:E. SnelsonとZ. Ghahramaniは、擬似入力を使用してスパースガウシアンプロセスは、'05 NIPS。しかし、それらの方法は(比較的)関与しており、疑似入力を見つけるために最適化が必要です。