サンプリングなしの高次元推論問題における不確実性推定？

勾配ベースの最適化と遺伝的アルゴリズムの組み合わせを使用して対数事後のグローバル最大値を見つけることにより、MAP推定を確実に実行できる高次元推論問題（約2000モデルのパラメーター）に取り組んでいます。

MAP推定値を見つけることに加えて、モデルパラメーターの不確実性をある程度推定できるようになりたいです。

パラメータに関して対数事後の勾配を効率的に計算できるため、長期的にはハミルトニアンMCMCを使用してサンプリングを行うことを目指していますが、今のところ、非サンプリングベースの推定に興味があります。

私だけが知っているアプローチ我々は計算してもいるので、多変量正規として後方に近似するモードで、ヘッセ行列の逆行列を計算し、それでもこれは、このような大規模なシステムのために実現不可能と思われることです $\sim 4\times10^{6}$ の要素をHessianその逆を見つけることができなかったと確信しています。

このような場合に一般的にどのようなアプローチが使用されているかを誰かが提案できますか？

ありがとう！

編集 -問題に関する追加情報

背景
これは、大規模な物理学実験に関連する逆問題です。いくつかの物理フィールドを記述する2D三角形メッシュがあり、モデルパラメーターは、メッシュの各頂点におけるそれらのフィールドの物理値です。メッシュには約650個の頂点があり、3つのフィールドをモデル化するため、2000個のモデルパラメーターがそこから取得されます。

私たちの実験データは、これらのフィールドを直接測定しない機器からのものですが、フィールドの複雑な非線形関数である量です。さまざまな機器のそれぞれについて、モデルパラメータを実験データの予測にマップするフォワードモデルがあり、予測と測定の比較により対数尤度が得られます。

次に、これらすべての異なる計測器からの対数尤度を合計し、フィールドにいくつかの物理的制約を適用するいくつかの対数優先値を追加します。

したがって、この「モデル」がカテゴリにきちんと分類されるかどうかは疑問です。モデルを選択することはできません。実験データを収集する実際の機器がどのように機能するかによって決まります。

データセット
データセットは500x500の画像で構成され、カメラごとに1つの画像があるため、合計データポイントは500x500x4 = $10^6$ です。

エラーモデル
問題のすべてのエラーを現時点でガウス分布と見なします。ある時点で、柔軟性を高めるためにスチューデントtエラーモデルに移行しようとするかもしれませんが、ガウシアンだけでも問題なく機能するようです。

可能性の例
これはプラズマ物理実験であり、私たちのデータの大部分は、レンズの前に特定のフィルターを備えたプラズマに向けられたカメラから得られ、光スペクトルの特定の部分のみを見ています。

データを再現するには、2つのステップがあります。最初に、メッシュ上のプラズマからの光をモデル化する必要があります。次に、その光をモデル化してカメラ画像に戻す必要があります。

残念ながら、プラズマからの光のモデル化は、実効レート係数とは何かに依存します。これは、フィールドが与えられたさまざまなプロセスによって放出される光の量を示します。これらのレートはいくつかの高価な数値モデルによって予測されるため、それらの出力をグリッドに保存し、値を検索するために補間する必要があります。レート関数データは一度だけ計算されます-データを保存してから、コードの起動時にそこからスプラインを作成し、そのスプラインをすべての関数評価に使用します。

仮定する $R_1$ 及び $R_2$ （我々は補間によって評価する）速度関数、で次に排出されている $i$ 「番目頂点メッシュの $\mathcal{E}_i$ によって与えられ、

E_{i} = R_{1} (x_{i}, y_{i}) + z_{i} R_{2} (x_{i}, y_{i})

$\mathcal{E}_i = R_1(x_i, y_i) + z_i R_2(x_i, y_i)$ ここで

(x, y, z)

$(x,y,z)$ メッシュ上でモデル化する3つのフィールドです。放出のベクトルをカメラ画像に取得するのは簡単です。これは、各カメラピクセルがメッシュのどの部分を透視するかをエンコードする行列

G

$\mathbf{G}$ を乗算するだけです。

エラーはガウスであるため、この特定のカメラの対数尤度は

L = - \frac{1}{2} (G \vec{E} - \vec{d})^{⊤} Σ^{- 1} (G \vec{E} - \vec{d})

$\mathcal{L} = -\frac{1}{2} (\mathbf{G}\vec{\mathcal{E}} - \vec{d})^{\top}\mathbf{\Sigma}^{-1} (\mathbf{G}\vec{\mathcal{E}} - \vec{d})$

ここで、 $\vec{d}$ はカメラデータです。合計の対数尤度は上記の式の4つの合計ですが、カメラが異なる場合、光スペクトルの異なる部分を見ているためレート関数 $R_1, R_2$ バージョンがすべて異なります。

以前の例
さまざまな量に特定の上限と下限を効果的に設定するさまざまな事前分布がありますが、これらは問題に対してあまり強く作用しない傾向があります。強く作用する1つの事前分布があります。これは、フィールドにラプラシアンタイプの平滑化を効果的に適用します。また、ガウス形式を取り：

log-prior = - \frac{1}{2} {\vec{x}}^{⊤} S \vec{x} - \frac{1}{2} {\vec{y}}^{⊤} S \vec{y} - \frac{1}{2} {\vec{z}}^{⊤} S \vec{z}

$\text{log-prior} = -\frac{1}{2}\vec{x}^{\top}\mathbf{S}\vec{x} -\frac{1}{2}\vec{y}^{\top}\mathbf{S}\vec{y} -\frac{1}{2}\vec{z}^{\top}\mathbf{S}\vec{z}$

— CBowman
ソース

あなたはどのモデルに合っていますか？線形回帰？GP？階層的カウントモデル？コンピュータモデルのベイズキャリブレーション？解決している問題の詳細を追加してください。VIの長所と短所を含めて回答を書きます。

— DeltaIV

@DeltaIV私はいくつかの詳細情報で質問を更新しました-私があなたが探していたものについて正確に詳しく説明しなかったかもしれません。もしそうなら、私に知らせてください、そして私はもう一度編集をします、ありがとう！

— CBowman

@DeltaIVありがとうございます！さらに情報が追加されました。他に追加できることがあれば、お知らせください。

— CBowman

10^{6}

$10^6$

k

$k$

2000 - k

$2000-k$

回答:

まず、あなたの統計モデルは間違っていると思います。私はあなたの記法を統計学者にとってより身近なものに変更します。

d = y = (y_{1}, \dots, y_{N}), N = 10^{6}

$\mathbf{d}=\mathbf{y}=(y_1,\dots,y_N),\ N=10^6$

観測（データ）のベクトル

\begin{aligned} x & = θ = (θ_{1}, \dots, θ_{p}) \\ y & = ϕ = (ϕ_{1}, \dots, ϕ_{p}) \\ z & = ρ = (ρ_{1}, \dots, ρ_{p}), p \approx 650 \end{aligned}

$\begin{align} \mathbf{x}&=\boldsymbol{\theta}=(\theta_1,\dots,\theta_p) \\ \mathbf{y}&=\boldsymbol{\phi}=(\phi_1,\dots,\phi_p) \\ \mathbf{z}&=\boldsymbol{\rho}=(\rho_1,\dots,\rho_p), \ p \approx 650 \\ \end{align}$

$d=3p \approx 2000$

y = G r_{1} (θ, ϕ) + ρ G r_{2} (θ, ϕ)) + ϵ, ϵ \sim N (0, I_{N})

$\mathbf{y} = \mathbf{G}\mathbf{r_1}(\boldsymbol{\theta}, \boldsymbol{\phi})+\boldsymbol{\rho}\mathbf{G}\mathbf{r_2}(\boldsymbol{\theta}, \boldsymbol{\phi}))+\boldsymbol{\epsilon},\ \boldsymbol{\epsilon}\sim\mathcal{N}(0,I_N)$

$\mathbf{G}$ $N\times d$

これは明らかに間違っています。同じカメラからの画像の異なるポイント、および異なるカメラからの画像の同じポイントでのエラーが独立していることはありません。一般化された最小二乗、セミバリオグラム推定、クリギング、ガウスプロセスなどの空間統計とモデルを調べる必要があります。

そうは言っても、モデルが実際のデータ生成プロセスの適切な近似であるかどうかではなく、そのようなモデルを推定する方法についての質問なので、そのためのいくつかのオプションを紹介します。

HMC

$10^6$

長所：「正確な」推論。チェーンからのサンプル数が無限に限られます。

短所：推定誤差に厳しい制限はありません。複数の収束診断メトリックが存在しますが、理想的なものはありません。

大きなサンプル近似

$\theta$ $p(\theta\vert \mathbf{y})$ $\mathcal{N}(\hat{\theta_0}_n,I_n^{-1}(\theta_0))$ $\theta_0$ $\hat{\theta_0}_n$ $\theta_0$ $I_n^{-1}(\theta_0)$ $\theta_0$ $\theta_0$ $I_n^{-1}(\hat{\theta_0}_n)$ $R_1,R_2$ 最初に説明したように、データが実際にiidであると想定している場合は有効ですが、そうではないと思います。

$p<<N$ $\theta_0$

$p(\theta\vert \mathbf{y})$

変分推論

$p(\theta\vert \mathbf{y})$ $d-$ $p$ $q_{\phi}(\theta)$ $q$ $\mathcal{Q}_{\phi}$ $\phi$ $\phi^*$ $q$ $p$

ϕ^{*} = \underset{ϕ \in Φ}{a r g m i n} D_{K L} (q_{ϕ} (θ) | | p (θ | y))

$\DeclareMathOperator*{\argmin}{arg\,min} \phi^*=\argmin_{\phi\in\Phi}D_{KL}(q_{\phi}(\theta)||p(\theta\vert\mathbf{y}))$

$q_{\phi}(\theta)$

$\phi$
$p(\theta\vert\mathbf{y})$ $\phi$ $q$

$q_{\phi}(\theta)$ $d$

q_{ϕ} (θ) = \prod_{i = 1}^{d} q_{ϕ_{i}} (θ_{i})

$q_{\phi}(\theta)=\prod_{i=1}^d q_{\phi_i}(\theta_i)$

$q_{\phi_j}(\theta_j)$

\log q_{j}^{*} (θ_{j}) = E_{i \neq j} [\log p (y, θ)] + const.

$\log{q_j^*(\theta_j)} = \mathbb{E}_{i\neq j}[\log{p(\mathbf{y},\theta)}] + \text{const.}$

$p(\mathbf{y},\theta)$ $q_1^*(\theta_1),\dots,q_{j-1}^*(\theta_{j-1}),q_{j+1}^*(\theta_{j+1}),\dots,q_{d}^*(\theta_{d})$ $q_{i}(\theta_{i})$ $(d-1)-$

$q$ $q_i$ $q$ $N$ データポイント。推論のコストを償却するために、ニューラルネットワークを使用して入力空間を変分パラメーター空間にマッピングします。アルゴリズムの詳細な説明については、ペーパーを参照してください。VAE実装は、すべての主要なディープラーニングフレームワークで再び利用可能です。

— DeltaIV
ソース

s^{2}

$s^2$

@DeltaIV統計モデルは実際には一般的にかなり良好です。異なるカメラ間の誤差は非常に独立しており、同じカメラ内の異なるピクセルは、文字通り隣接していない限り、基本的に独立しています。ガウスプロセスの尤度を使用して、隣接するピクセルの空間相関をエンコードすることもできますが、そのためには、共分散行列を直接反転するか、尤度を評価するたびにスパース線形システムを解く必要があります。高価です（問題外ではありません）。

— CBowman

「bayesX」ソフトウェアの一部と、場合によっては「inla」ソフトウェアもチェックアウトすることをお勧めします。これらの両方は、あなたが試すことができるいくつかのアイデアを持っている可能性があります。グーグルそれ

どちらも、精度行列のパラメーター化（すなわち、条件付き独立、マルコフ型モデル）でスパース性を利用することに大きく依存しており、これのために設計された反転アルゴリズムがあります。ほとんどの例は、マルチレベルまたは自動回帰のガシアモデルに基づいています。あなたが投稿した例とかなり似ているはずです

— 確率論的
ソース