最大平均不一致（距離分布）

異なる分布に従う2つのデータセット（ソースデータとターゲットデータ）があります。ソースデータとターゲットデータ間の周辺分布を計算するために、MMD（これはノンパラメトリック距離分布です）を使用しています。

ソースデータ、X

ターゲットデータ、Xt

適応マトリックスA

*予測データ、Zs = A '* XsおよびZt = A' Xt

* MMD =>距離（P（Xs）、P（Xt））= | mean（A'Xs）-mean（A ' Xt）|

つまり、元の空間のソースデータとターゲットデータ間の分布の距離は、埋め込み空間の投影されたソースデータとターゲットデータの平均間の距離に相当します。

MMDのコンセプトについて質問があります。

MMD式で、なぜ潜在空間での距離を計算すると、元の空間での分布の距離を測定できるのでしょうか。

ありがとう

— マーサ
ソース

実際にはまだ質問していません。混乱することを私たちに伝えただけです！

— whuber

MMDの概要をもう少し詳しく説明すると役立つ場合があります。 $\DeclareMathOperator{\E}{\mathbb E}\newcommand{\R}{\mathbb R}\newcommand{\X}{\mathcal X}\newcommand{\h}{\mathcal H}\DeclareMathOperator{\MMD}{MMD}$

一般に、MMDは、分布間の距離を特徴の平均埋め込み間の距離として表すという考えによって定義されます。つまり、セット上の分布とがあるとします。MMDは、機能マップによって定義されます。は、再生カーネルヒルベルト空間と呼ばれるものです。一般的に、MMDは $P$ $Q$ $\X$ $\varphi : \X \to \h$ $\mathcal H$

MMD (P, Q) = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} .

$\MMD(P, Q) = \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h .$

一例として、およびます。その場合：なので、このMMDは2つの分布の平均間の距離にすぎません。このように一致する分布は、分散またはその他の点で異なる場合がありますが、平均に一致します。 $\X = \h = \R^d$ $\varphi(x) = x$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [X] - E_{Y \sim Q} [Y] ‖_{R^{d}} \\ = ‖ μ_{P} - μ_{Q} ‖_{R^{d}}, \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ X ] - \E_{Y \sim Q}[ Y ] \rVert_{\R^d} \\&= \lVert \mu_P - \mu_Q \rVert_{\R^d} ,\end{align}$

あなたのケースは少し異なります：とあり、。ここで、は行列です。したがって、このMMDは、平均の2つの異なる射影の差です。場合またはマッピングそうでない場合は可逆ではありません、 $\mathcal X = \mathbb R^d$ $\mathcal H = \mathbb R^p$ $\varphi(x) = A' x$ $A$ $d \times p$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [A^{'} X] - E_{Y \sim Q} [A^{'} Y] ‖_{R^{p}} \\ = ‖ A^{'} E_{X \sim P} [X] - A^{'} E_{Y \sim Q} [Y] ‖_{R^{p}} \\ = ‖ A^{'} (μ_{P} - μ_{Q}) ‖_{R^{p}} . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ A' X ] - \E_{Y \sim Q}[ A' Y ] \rVert_{\R^p} \\&= \lVert A' \E_{X \sim P}[ X ] - A' \E_{Y \sim Q}[ Y ] \rVert_{\R^p} \\&= \lVert A'( \mu_P - \mu_Q ) \rVert_{\R^p} .\end{align}$

p < d

$p < d$

A^{'}

$A'$ 前のものよりも：前のものがするいくつかの分布を区別しません。

より強い距離を構築することもできます。たとえば、でを使用すると、MMDはであり、平均の異なる分布だけでなく、分散の異なる分布も区別できます。 $\X = \R$ $\varphi(x) = (x, x^2)$ $\sqrt{(\E X - \E Y)^2 + (\E X^2 - \E Y^2)^2}$

そして、それよりもはるかに強力になる可能性があります。が一般的な再生カーネルヒルベルト空間にマッピングされている場合、カーネルトリックを適用してMMDを計算できます。ガウスカーネルを含む多くのカーネルがMMDにつながることがわかります。分布が同一の場合にのみゼロになります。 $\varphi$

具体的には、とすると、サンプルで簡単に推定できる。 $k(x, y) = \langle \varphi(x), \varphi(y) \rangle_\h$

\begin{aligned} {MMD}^{2} (P, Q) & = ‖ E_{X \sim P} φ (X) - E_{Y \sim Q} φ (Y) ‖_{H}^{2} \\ = ⟨ E_{X \sim P} φ (X), E_{X^{'} \sim P} φ (X^{'}) ⟩_{H} + ⟨ E_{Y \sim Q} φ (Y), E_{Y^{'} \sim Q} φ (Y^{'}) ⟩_{H} - 2 ⟨ E_{X \sim P} φ (X), E_{Y \sim Q} φ (Y) ⟩_{H} \\ = E_{X, X^{'} \sim P} k (X, X^{'}) + E_{Y, Y^{'} \sim Q} k (Y, Y^{'}) - 2 E_{X \sim P, Y \sim Q} k (X, Y) \end{aligned}

$\begin{align} \MMD^2(P, Q) &= \lVert \E_{X \sim P} \varphi(X) - \E_{Y \sim Q} \varphi(Y) \rVert_\h^2 \\&= \langle \E_{X \sim P} \varphi(X), \E_{X' \sim P} \varphi(X') \rangle_\h + \langle \E_{Y \sim Q} \varphi(Y), \E_{Y' \sim Q} \varphi(Y') \rangle_\h - 2 \langle \E_{X \sim P} \varphi(X), \E_{Y \sim Q} \varphi(Y) \rangle_\h \\&= \E_{X, X' \sim P} k(X, X') + \E_{Y, Y' \sim Q} k(Y, Y') - 2 \E_{X \sim P, Y \sim Q} k(X, Y) \end{align}$

更新：名前の「最大」の由来はここにあります。

機能マップは、再生中のカーネルヒルベルト空間にマップします。これらは関数のスペースであり、キープロパティ（再生プロパティと呼ばれます）： for anyを満たします。 $\varphi: \X \to \h$ $\langle f, \varphi(x) \rangle_\h = f(x)$ $f \in \h$

最も単純な例であると場合、各をによって、いくつかのに対応する関数と見なしますです。次に、再生プロパティが意味をなさなければなりません。 $\X = \h = \R^d$ $\varphi(x) = x$ $f \in \h$ $w \in \R^d$ $f(x) = w' x$ $\langle f, \varphi(x) \rangle_\h = \langle w, x \rangle_{\R^d}$

ガウスカーネルのように、より複雑な設定では、ははるかに複雑な関数ですが、再生のプロパティはそのままです。 $f$

これで、MMDの別の特性を与えることができます： 2行目は、ヒルベルト空間のノルムに関する一般的な事実です。

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] ⟩_{H} - ⟨ f, E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [⟨ f, φ (X) ⟩_{H}] - E_{Y \sim Q} [⟨ f, φ (Y) ⟩_{H}] \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [f (X)] - E_{Y \sim Q} [f (Y)] . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rVert_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] \rangle_\h - \langle f, \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[\langle f, \varphi(X)\rangle_\h] - \E_{Y \sim Q}[\langle f, \varphi(Y) \rangle_\h] \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[f(X)] - \E_{Y \sim Q}[f(Y)] .\end{align}$

sup_{f : ‖ f ‖ \leq 1} ⟨ f, g ⟩_{H} = ‖ g ‖

$\sup_{f : \lVert f \rVert \le 1} \langle f, g \rangle_\h = \lVert g \rVert$ はによって実現されます。4番目は、ボクナー積分可能性として知られている技術的条件に依存しますが、たとえば、制限付きカーネルまたは制限付きサポートのあるディストリビューションには当てはまります。次に、最後に再生プロパティを使用します。

f = g / ‖ g ‖

$f = g / \lVert g \rVert$

この最後の行が、「最大平均不一致」と呼ばれる理由です。これは、2つの分布間の平均差の、単位ボールにおけるテスト関数最大値です。 $f$ $\h$

— ドゥガル
ソース

あなたの説明をありがとう、それは私にとってより明確になります。それでも私はこの概念を理解していませんでした。初めに、「MMDは分布間の距離を特徴の平均埋め込み間の距離として表すという考えによって定義されます。」なぜこのアイデアが実現するのですか？

— Mahsa

「MMDは、分布間の距離を特徴の平均埋め込み間の距離として表すという考えによって定義されます。」なぜこのアイデアが実現するのですか？それはRKHSスペースに関連していますか？

— Mahsa

これは単なる定義です。平均を比較することで分布を比較できます。または、それらの平均のいくつかの変換を比較することにより、分布を比較できます。またはそれらの平均と分散を比較することによって; または、RKHSのマップを含め、他のフィーチャーマップの平均を比較する。

— Dougal

ご返信ありがとうございます; RKHSフィーチャー・マップについて詳しく読むつもりです。疑問に思ったのですが、RKHSフィーチャマップでMMDが距離を定義するのはなぜですか？つまり、MMD距離の定義におけるRKHSの利点は何ですか？

— Mahsa

ここでの説明は、「最大平均不一致」ではなく「平均不一致」に焦点を当てています。誰かが「最大化」の部分について詳しく説明できますか？

— 江翔

これがMMDをどう解釈したかです。モーメントが似ていれば、2つの分布は似ています。カーネルを適用することで、すべてのモーメント（1番目、2番目、3番目など）が計算されるように変数を変換できます。潜在空間では、モーメントの差を計算して平均化できます。これにより、データセット間の類似性/非類似性の尺度が得られます。

— rsambasivan
ソース