相互情報と相関


回答:


77

(線形)相関の1つの基本概念である共分散(ピアソンの相関係数「非標準化」)を考えてみましょう。確率質量関数p x p y およびジョイントpmf p x y を持つ2つの離散確率変数およびYについてXYp(x)p(y)p(x,y)

Cov(X,Y)=E(XY)E(X)E(Y)=x,yp(x,y)xy(xp(x)x)(yp(y)y)

Cov(X,Y)=x,y[p(x,y)p(x)p(y)]xy

2つの間の相互情報は次のように定義されます。

I(X,Y)=E(lnp(x,y)p(x)p(y))=x,yp(x,y)[lnp(x,y)lnp(x)p(y)]

Cov(X,Y)I(X,Y)

Cov(X,Y)I(X,Y)

Cov(X,Y)I(X,Y)

I(X,Y)Cov(X,Y)

したがって、2つは拮抗的ではありません。これらは相補的であり、2つのランダム変数間の関連のさまざまな側面を記述しています。共分散がゼロで変数が確率的に依存している場合でも、関連付けが線形であるかどうかに関係なく、相互情報は「関係ない」とコメントできます。一方、共分散は、関連する確率分布を実際に知る必要なしにデータサンプルから直接計算できます(分布のモーメントを含む式であるため)。一方、相互情報量は、分布の知識を必要とします。不明、共分散の推定と比較して、はるかに繊細で不確実な作業です。


@アレコスパパドプロス; 包括的な回答をありがとう。
サザ14年

1
私は自分自身に同じ質問をしていましたが、その答えを完全には理解していませんでした。@ Alecos Papadopoulos:測定された依存関係が同じではないことを理解しました、大丈夫です。XとYの間のどのような関係に対して、Cov(X、Y)よりも相互情報I(X、Y)を優先すべきでしょうか?最近、YがXにほぼ線形に依存し(散布図ではほぼ直線でした)、Corr(X、Y)が0.87でI(X、Y)が0.45だったという奇妙な例が​​ありました。それで、ある指標が他の指標よりも選択されるべき場合があるのは明らかですか?助けてくれてありがとう!
ガンジー91 14年

XH(X)

これは非常に明確な答えです。covが0で、pmiがそうではない、すぐに利用できる例があるかどうか疑問に思っていました。
タン

@thang。あんまり。共分散がゼロであると同時に、同時分布が利用できる場合の例を見つけて、相互情報を計算することができます(そして、変数が独立)。
アレコスパパドプロス

7

相互情報量は、2つの確率分布間の距離です。相関は、2つのランダム変数間の線形距離です。

シンボルのセットに対して定義された任意の2つの確率間の相互情報を持つことができますが、R ^ N空間に自然にマッピングできないシンボル間の相関を持つことはできません。

一方、相互情報は変数のいくつかのプロパティについて仮定を行いません...スムーズな変数を使用している場合、相関関係はそれらについてより多くを教えてくれます。例えば、それらの関係が単調である場合。

以前の情報がある場合は、ある情報から別の情報に切り替えることができます。医療記録では、シンボル「has genotype A」を1に、「does not a genotype A」を0および1の値にマッピングし、これが何らかの病気と何らかの相関があるかどうかを確認できます。同様に、連続した変数(例:給与)を取得し、それを個別のカテゴリに変換し、それらのカテゴリと別のシンボルセット間の相互情報を計算できます。


相関は線形関数ではありません。相関は、ランダム変数間の線形関係の尺度であると言うべきですか?
マシューガン

1
私はこれを考えます:「シンボルのセットに定義された任意の2つの確率の間で相互情報を持つことができますが、R ^ N空間に自然にマッピングできないシンボル間の相関はありません」がおそらく鍵です。完全なランダム変数がない場合、Corrは意味をなしません。ただし、pmiは、pdfとsigma(スペース)だけでも意味があります。これが、RVが意味をなさない多くのアプリケーション(NLPなど)でpmiが使用される理由です。
タン

6

以下に例を示します。

これらの2つのプロットでは、相関係数はゼロです。ただし、相関がゼロの場合でも、高い共有相互情報を取得できます。

最初に、Xの値が高いか低い場合、Yの値が高くなる可能性が高いことがわかります。しかし、Xの値が中程度の場合、Yの値が低くなります。 XとYが共有する相互情報に関する情報を保持します。2番目のプロットでは、XはYについて何も伝えません。

相互情報と相関


4

どちらもフィーチャ間の関係の尺度ですが、MIは相関係数(CE)よりも一般的であるため、CEは線形関係のみを考慮することができますが、MIは非線形関係も処理できます。


それは真実ではない。ピアソン相関係数は、2つのランダム変数の正規性と線形性を想定していますが、ノンパラメトリックスピアマンのような代替案はそうではありません。2つのrv間には単調性のみが想定されます。
ニャー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.