MMDの概要をもう少し詳しく説明すると役立つ場合があります。
一般に、MMDは、分布間の距離を特徴の平均埋め込み間の距離として表すという考えによって定義されます。つまり、セット上の分布とがあるとします。MMDは、機能マップによって定義されます。は、再生カーネルヒルベルト空間と呼ばれるものです。一般的に、MMDは
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
一例として、およびます。その場合:
なので、このMMDは2つの分布の平均間の距離にすぎません。このように一致する分布は、分散またはその他の点で異なる場合がありますが、平均に一致します。X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
あなたのケースは少し異なります:とあり、。ここで、は行列です。したがって、
このMMDは、平均の2つの異なる射影の差です。場合またはマッピングそうでない場合は可逆ではありません、X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ 前のものよりも:前のものがするいくつかの分布を区別しません。
より強い距離を構築することもできます。たとえば、でを使用すると、MMDはであり、平均の異なる分布だけでなく、分散の異なる分布も区別できます。X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
そして、それよりもはるかに強力になる可能性があります。が一般的な再生カーネルヒルベルト空間にマッピングされている場合、カーネルトリックを適用してMMDを計算できます。ガウスカーネルを含む多くのカーネルがMMDにつながることがわかります。分布が同一の場合にのみゼロになります。φ
具体的には、とすると、
サンプルで簡単に推定できる。k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
更新:名前の「最大」の由来はここにあります。
機能マップは、再生中のカーネルヒルベルト空間にマップします。これらは関数のスペースであり、キープロパティ(再生プロパティと呼ばれます): for anyを満たします。φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
最も単純な例であると場合、各をによって、いくつかのに対応する関数と見なしますです。次に、再生プロパティが意味をなさなければなりません。X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
ガウスカーネルのように、より複雑な設定では、ははるかに複雑な関数ですが、再生のプロパティはそのままです。f
これで、MMDの別の特性を与えることができます:
2行目は、ヒルベルト空間のノルムに関する一般的な事実です。MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥はによって実現されます。4番目は、ボクナー積分可能性として知られている技術的条件に依存しますが、たとえば、制限付きカーネルまたは制限付きサポートのあるディストリビューションには当てはまります。次に、最後に再生プロパティを使用します。f=g/∥g∥
この最後の行が、「最大平均不一致」と呼ばれる理由です。これは、2つの分布間の平均差の、単位ボールにおけるテスト関数最大値です。fH