回答:
相互情報は、定義により2つの確率変数(RV)を関連付け、情報コンテンツの観点から2つのRV間の依存関係を測定します。また、相互情報量は対称的な量、つまりです。
通信チャネルの場合、チャネルの最大達成可能容量は、チャネルの入力と出力の間の相互情報の最大値です。
あなたの場合、2つのRVとは本と単語に対応します。相互情報量は、(本、単語)ペア間で共通する情報量を測定します。明らかにあなたはあなたが最大の相互情報を持っている本にその単語を関連付けるでしょう。これが最大の相互情報アプローチです。Y
2つの追加の直感的な相互情報量:
2つの確率変数が独立している場合、結合分布と周辺分布の積とは同一です。したがって、と間の確率的距離を計算することにより、2つの確率変数間の独立度を評価できます。この距離は、2つの変数が独立している場合は0です。変数間の一般的な確率論的な距離は、カルバックライブラーダイバージェンスです。ジョイント分布と2つの確率変数の周辺の積の間のカルバックライブラーダイバージェンスを採用すると、相互情報になってしまいます。p (x )p (y )p (x )× p (y )p (x 、y )
圧縮/コーディングの観点から、ペアの観測シーケンスが与えられたと想像してください。それらをファイルに圧縮したいとします。2つの戦略:すべての(x)を1つの圧縮ファイルに保存してから、独立してすべて(y)を別の圧縮ファイルに保存する。vsペアの圧縮。最適なコーダーを使用すると、最初のケースのファイルサイズはですが、2番目のケースのファイルサイズはです。2番目のアプローチは、2つの観測された変数の間に関係がある場合、より効率的です!観測ごとに何ビット節約できましたか?(x 、y )N × H (X )+ N × H (Y )N × H (X 、Y )N × H (X )+ N × H (Y )− N × H (X 、Y )!したがって、相互情報は、2つのデータストリームを個別にではなく共同でコーディングすることで、観測ごとに何ビット節約できるかを示します。
あなたの例についてはわかりませんが...相互情報は2つの確率変数(分布)の間で計算されます。「本」が本の中の単語の分布をどのように表すことができるかがわかります。ここで「単語」が何を意味するのかはわかりません。相互情報量には、「対の」観測値の計算も必要です。