統計とビッグデータ gaussian-process

2

背景と問題回帰とその後のベイズ最適化（BO）にガウス過程（GP）を使用しています。回帰の場合、MATLABでgpmlパッケージを使用し、いくつかのカスタムメイドの変更を加えますが、問題は一般的です。 2つのトレーニング入力が入力空間内で近すぎる場合、共分散行列が非正定値になる可能性があることはよく知られています（このサイトにはいくつかの質問があります）。その結果、さまざまなGP計算に必要な共分散行列のコレスキー分解は、数値誤差により失敗する場合があります。これは、私が使用している目的関数でBOを実行したときにいくつかのケースで発生し、修正したいと思います。提案されたソリューション悪条件を緩和するための標準ソリューションであるAFAIKは、共分散行列の対角線にリッジまたはナゲットを追加することです。GP回帰の場合、これは観測ノイズの追加（または、既に存在する場合は増加）に相当します。ここまでは順調ですね。コードを修正してgpmlを正確に推論し、コレスキー分解が失敗するたびに、ジョンD' Errico によるこのMATLABコードに触発されたフロベニウスノルムの最も近い対称正定（SPD）行列に共分散行列を修正しようとします。理論的根拠は、元のマトリックスへの介入を最小限にすることです。この回避策は仕事をしますが、いくつかの機能でBOのパフォーマンスが大幅に低下することに気付きました-おそらくアルゴリズムが特定の領域にズームインする必要があるときはいつでも（たとえば、最小に近づくか、長さのスケールのため問題の不均一に小さくなります）。2つの入力ポイントが近づきすぎるとノイズが効果的に増加するため、この動作は理にかなっていますが、もちろん理想的ではありません。または、問題のあるポイントを削除することもできますが、繰り返しますが、入力ポイントを近づける必要がある場合があります。質問 GPの共分散行列のコレスキー因数分解に関する数値的な問題は新しい問題ではないと思いますが、驚いたことに、ノイズを増やしたり、互いに近すぎる点を削除したりすることを除けば、これまでのところ多くの解決策を見つけることができませんでした。一方で、私の機能のいくつかは非常に悪い振る舞いをしているので、おそらく私の状況はそれほど典型的ではありません。ここで役立つ可能性のある提案/参照はありますか？

12 regression covariance-matrix gaussian-process bayesian-optimization

2

ガウス過程の微分

ガウス過程（GP）の導関数は別のGPであると考えているため、GPの導関数の予測方程式に閉形式の方程式があるかどうかを知りたいですか？特に、二乗指数（ガウスとも呼ばれます）共分散カーネルを使用しており、ガウス過程の微分についての予測について知りたいです。

12 stochastic-processes gaussian-process derivative

3

ガウシアンプロセスモデルの主な利点

ガウス過程は、特にエミュレーションで広く使用されています。計算需要が高いことが知られています（）。0 （n３）0(n3)0(n^3) 何が彼らを人気にしていますか？それらの主な隠れた利点は何ですか？なぜそれらがパラメトリックモデルの代わりに使用されるのですか（パラメトリックモデルとは、異なるパラメトリックフォームを使用して、入力対出力の傾向を記述するために使用できる典型的な線形回帰を意味します。ガウス過程をユニークで有利にする固有の特性を説明する技術的な答えに本当に感謝します

11 gaussian-process

2

ガウス過程での観測のマージ

回帰にはガウス過程（GP）を使用しています。私の問題では、2つ以上のデータポイントが長さに対して相対的に近いことがよくあります問題のスケール。また、観測は非常に騒々しいことができます。計算を高速化し、測定精度を向上させるために、より大きな長さスケールでの予測に関心がある限り、互いに近い点のクラスターをマージ/統合するのは自然なことのようです。x⃗ (1),x⃗ (2),…x→(1),x→(2),…\vec{x}^{(1)},\vec{x}^{(2)},\ldots これを行うには高速だが半原則的な方法は何ですか？ 2つのデータポイントは完全に重複した場合、および観測ノイズ（すなわち、尤度）は、おそらくheteroskedasticしかしガウスであり、公知の、処理の自然な方法は、それらを単一のデータポイントにマージするようです：x⃗ (1)=x⃗ (2)x→(1)=x→(2)\vec{x}^{(1)} = \vec{x}^{(2)} x¯⃗ ≡x⃗ (k)x¯→≡x→(k)\vec{\bar{x}} \equiv \vec{x}^{(k)}、のために。k=1,2k=1,2k=1,2 観測値は、相対精度で重み付けされた観測値平均です：。y¯y¯\bar{y}y(1),y(2)y(1),y(2)y^{(1)}, y^{(2)}y¯=σ2y(x⃗ (2))σ2y(x⃗ (1))+σ2y(x⃗ (2))y(1)+σ2y(x⃗ (1))σ2y(x⃗ (1))+σ2y(x⃗ (2))y(2)y¯=σy2(x→(2))σy2(x→(1))+σy2(x→(2))y(1)+σy2(x→(1))σy2(x→(1))+σy2(x→(2))y(2)\bar{y} = \frac{\sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(1)} + \frac{\sigma_y^2(\vec{x}^{(1)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(2)} 等しい観測に関連するノイズ。σ2y(x¯)=σ2y(x⃗ (1))σ2y(x⃗ (2))σ2y(x⃗ (1))+σ2y(x⃗ (2))σy2(x¯)=σy2(x→(1))σy2(x→(2))σy2(x→(1))+σy2(x→(2))\sigma_y^2(\bar{x}) = \frac{\sigma_y^2(\vec{x}^{(1)}) \sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} ただし、近接しているが重複していない 2つのポイントをどのようにマージする必要がありますか？は、やはり相対的信頼性を使用して、2つの位置の加重平均である必要があると思います。理論的根拠は、重心の議論です（つまり、非常に正確な観測を、あまり正確でない観測のスタックとして考えます）。x¯⃗ x¯→\vec{\bar{x}} 用上記と同じ式。y¯y¯\bar{y} 観測に関連するノイズについては、上記の式に加えて、データポイントを移動しているため、ノイズに補正項を追加する必要があるのでしょうか。基本的に、と（それぞれ、信号分散と共分散関数の長さスケール）に関連する不確実性が増加します。この用語の形式はわかりませんが、共分散関数が与えられた場合の計算方法について、いくつかの仮のアイデアがあります。σ2fσf2\sigma_f^2ℓ2ℓ2\ell^2 先に進む前に、すでに何かがそこにあるのかどうか疑問に思いました。これが賢明な手順であると思われる場合、またはより迅速な方法がある場合。 …

11 regression machine-learning gaussian-process

3

ブラウニアンブリッジを使用してブラウニアンエクスカーションをシミュレートしますか？

私はブラウンエクスカーションプロセス（場合は常に正である条件付けられるブラウン運動をシミュレートしたいとで）。ブラウニアンエクスカーションプロセスは、常にポジティブになるように条件付けされたブラウニアンブリッジであるため、ブラウニアンブリッジを使用して、ブラウニアンエクスカーションのモーションをシミュレートしたいと考えていました。0 t = 10<t<10<t<10 \lt t \lt 1000t=1t=1t=1 Rでは、ブラウンブリッジプロセスをシミュレートするために 'e1017'パッケージを使用しています。このブラウン橋プロセスを使用して、ブラウンエクスカーションを作成するにはどうすればよいですか？

11 r gaussian-process brownian

2

期待は平均と同じですか？

私は私の大学でMLをやっており、教授はガウシアンプロセスについていくつかのことを説明しようとしていたときに、期待（E）という用語を述べました。しかし、彼の説明から、Eは平均μと同じであることがわかりました。私は正しく理解しましたか？同じであれば、両方の記号が使用されている理由を知っていますか？また、EはE（）のように関数として使用できることも確認しましたが、μについては確認できませんでした。バツ2x2x^2 誰かが2つの違いをよりよく理解するのに役立ちますか？

11 machine-learning gaussian-process linear-algebra

1

ガウス過程が過剰適合しているかどうかをどのように検出できますか？

交差検証ではなく、データの周辺信頼度を最大化することにより、多くのパラメーターを持つARDカーネルでガウスプロセスをトレーニングしています。私はそれが過剰適合していると思います。ベイジアンコンテキストでこの疑いをテストするにはどうすればよいですか？

11 machine-learning cross-validation gaussian-process

2

増分ガウスプロセス回帰

ストリームを介して1つずつ到着するデータポイントにスライディングウィンドウを使用して、増分ガウスプロセス回帰を実装したいと思います。ましょう入力空間の次元を表します。したがって、すべてのデータポイントx iにはd個の要素があります。dddバツ私xix_iddd してみましょうスライディングウィンドウのサイズです。んnn 予測を行うには、グラム行列逆を計算する必要があります。ここで、K i j = k （x i、x j）であり、kは2乗指数カーネルです。KKKK私はj= k （x私、xj）Kij=k(xi,xj)K_{ij} = k(x_i, x_j) Kが新しいデータポイントごとに大きくなるのを避けるために、新しいポイントを追加する前に最も古いデータポイントを削除して、グラムが大きくならないようにすることができると考えました。例えば、聞かせてここで、Σは、重みの共分散であり、φは、二乗指数カーネルによって暗示暗黙的なマッピング関数です。K=ϕ(X)TΣϕ(X)K=ϕ(X)TΣϕ(X)K = \phi(X)^{T}\Sigma\phi(X)ΣΣ\Sigmaϕϕ\phi 今聞かせて ]およびX n e w = [ x t − n + 2 | 。。。| x t | X T + 1 ] X「sはさdはによって1列の行列。X=[xt−n+1|xt−n+2|...|xtX=[xt−n+1|xt−n+2|...|xtX=[x_{t-n+1}|x_{t-n+2}|...|x_{t}Xnew=[xt−n+2|...|xt|xt+1]Xnew=[xt−n+2|...|xt|xt+1]X_{new}=[x_{t-n+2}|...|x_{t}|x_{t+1}]xxxddd111 Kを潜在的に使用してを見つける効果的な方法が必要です。これは、シャーマンモリソンの公式で効率的に処理できる、ランク1の更新された行列の問題の逆のようには見えません。K−1newKnew−1K_{new}^{-1}KKK

11 regression covariance gaussian-process linear-algebra online

2

近似される関数が時間とともに変化するときにガウス過程回帰を実行する方法は？

時間の経過に伴う変化を概算しようとしている関数のガウスプロセス回帰を実行するための適切な戦略は何ですか？私の頭に浮かぶ素朴なアプローチは、最新のN個のデータポイントのみを使用して回帰を実行することです。より良い戦略は何ですか？

10 regression online gaussian-process

1

ガウス過程（回帰）には普遍的な近似特性がありますか？

[a、b]の連続関数（aとbは実数）をガウスプロセス（回帰）で近似するか、関数に（ある基準で）任意に近づけることはできますか？

10 gaussian-process approximation

2

クリギングとガウス過程の違いに関連する混乱

クリギングプロセスとガウスプロセスの違いを理解するのに苦労しています。つまり、ウィキはそれらは同じであると言いますが、予測の式はとても異なります。それらが同じように呼ばれている理由を少し混乱しています。明確化？

10 gaussian-process

3

大規模なデータセットのガウス過程回帰

私はオンラインビデオと講義ノートからガウシアンプロセス回帰について学んでいますが、ポイントのデータセットがある場合、データはn次元の多変量ガウシアンからサンプリングされると想定しています。だから私の質問は、nが数千万の場合で、ガウスプロセス回帰はまだ機能しますか？カーネルマトリックスは巨大ではなく、プロセスは完全に非効率的になりますか？もしそうなら、データセットから何度もサンプリングするような、これに対処するためのテクニックが用意されていますか？そのような場合に対処するためのいくつかの良い方法は何ですか？んnnんnnんnn

10 machine-learning probability inference gaussian-process multivariate-regression

2

高次元データセットのガウスプロセス回帰

高次元データセットにガウスプロセス回帰（GPR）を適用した経験があるかどうかを確認したいだけです。さまざまなスパースGPRメソッド（スパース疑似入力GPRなど）のいくつかを調べて、機能選択がパラメーター選択プロセスの一部である高次元データセットで何が機能するかを確認します。論文/コード/またはさまざまな方法を試してみてください。ありがとう。

10 machine-learning predictive-models large-data gaussian-process

2

カーネル回帰はガウスプロセス回帰に似ていますか？

以前は、データを平滑化するためにNadaraya-Watsonカーネル回帰を使用しました。最近、ガウスプロセス回帰に遭遇しました。一応、彼らは関連していないようです。しかし、私が知らないもっと深いつながりがあるのではないかと思っています。Nadaraya-Watsonカーネル回帰はGPRの特別なケースですか？

10 regression nonparametric gaussian-process kernel-smoothing

1

論文におけるガウス過程回帰方程式の導出に関する疑問

私はこのペーパープレプリントを読んでおり、ガウスプロセス回帰の方程式の導出を理解するのに苦労しています。彼らはラスムッセンとウィリアムズの設定と表記法を使用しています。したがって、添加剤、ゼロ平均、固定及び正常分散とノイズ分散想定されます。σ2noiseσnoise2\sigma^2_{noise} y=f(x)+ϵ,ϵ∼N(0,σ2noise)y=f(x)+ϵ,ϵ∼N(0,σnoise2)y=f(\mathbf{x})+\epsilon, \quad \epsilon\sim N(0,\sigma^2_{noise}) ゼロ平均を有する従来A GPのために想定される、手段∀ D ∈ N、F = { F （X 1）、... 、Fは（X D）}平均0及び共分散行列を有するガウスベクトルでありますf(x)f(x)f(\mathbf{x})∀ d∈N∀ d∈N\forall \ d\in Nf={f(x1),…,f(xd)}f={f(x1),…,f(xd)}\mathbf{f}=\{f(\mathbf{x_1}),\dots,f(\mathbf{x_d})\} Σd=⎛⎝⎜⎜k(x1,x1)k(xd,x1)⋱k(x1,xd)k(xd,xd)⎞⎠⎟⎟Σd=(k(x1,x1)k(x1,xd)⋱k(xd,x1)k(xd,xd))\Sigma_d=\pmatrix{k(\mathbf{x_1},\mathbf{x_1})& & k(\mathbf{x_1},\mathbf{x_d}) \\ & \ddots & \\k(\mathbf{x_d},\mathbf{x_1})& & k(\mathbf{x_d},\mathbf{x_d}) } これからは、ハイパーパラメータが既知であると仮定します。次に、論文の式（4）は明白です。 p(f,f∗)=N(0,(Kf,fKf∗,fKf∗,fKf∗,f∗))p(f,f∗)=N(0,(Kf,fKf∗,fKf∗,fKf∗,f∗))p(\mathbf{f},\mathbf{f^*})=N\left(0,\pmatrix { K_{\mathbf{f},\mathbf{f}} & K_{\mathbf{f^*},\mathbf{f}} \\K_{\mathbf{f^*},\mathbf{f}} & K_{\mathbf{f^*},\mathbf{f^*}}} \right) ここで疑問が生じます：式（5）： p(y|f)=N(f,σ2noiseI)p(y|f)=N(f,σnoise2I)p(\mathbf{y}|\mathbf{f})=N\left(\mathbf{f},\sigma^2_{noise}I \right) E[f]=0E[f]=0E[\mathbf{f}]=0E[y|f]=f≠0E[y|f]=f≠0E[\mathbf{y}|\mathbf{f}]=\mathbf{f}\neq0ff\mathbf{f}y=c+ϵy=c+ϵ\mathbf{y}=\mathbf{c}+\boldsymbol{\epsilon}cc\mathbf{c}ϵϵ\boldsymbol{\epsilon} とにかく、それは私にはより不明瞭な式（6）です。 p(f,f∗|y)=p(f,f∗)p(y|f)p(y)p(f,f∗|y)=p(f,f∗)p(y|f)p(y)p(\mathbf{f},\mathbf{f^*}|\mathbf{y})=\frac{p(\mathbf{f},\mathbf{f^*})p(\mathbf{y}|\mathbf{f})}{p(\mathbf{y})} …

9 regression bayesian gaussian-process

タグ付けされた質問 「gaussian-process」

タグ付けされた質問「gaussian-process」