数値計算を超えた相互情報の意味は何ですか?


8

相互情報量を計算するための生の方程式以外に、物理的にはどういう意味ですか?例:情報理論から、エントロピーは、特定の確率分布を持つアルファベットで使用できる最小の損失のない圧縮スキームであることがわかります。

相互情報に関してはどういう意味ですか?

背景:ユニグラムの単語の相互情報量を計算して、2冊のうちどちらの本かを調べようとしています。

エッセンシャル

book;word

私が見つけたいくつかのリンクは次のとおりです。(stats.stackexchange.com/search?q=mutual+information
Spacey

回答:


6

相互情報は、定義により2つの確率変数(RV)を関連付け、情報コンテンツの観点から2つのRV間の依存関係を測定します。また、相互情報量は対称的な量、つまりです。バツ;Y=Y;バツ

通信チャネルの場合、チャネルの最大達成可能容量は、チャネルの入力と出力の間の相互情報の最大値です。C=最高pバツバツ;Y

あなたの場合、2つのRVとは本と単語に対応します。相互情報量は、(本、単語)ペア間で共通する情報量を測定します。明らかにあなたはあなたが最大の相互情報を持っている本にその単語を関連付けるでしょう。これが最大の相互情報アプローチです。YバツY


より多くの段落、文法、そして口調のような少ない教科書を使用できますが、それ以外は非常に明確です。
Cyber​​Men

6

2つの追加の直感的な相互情報量:

  • 2つの確率変数が独立している場合、結合分布と周辺分布の積とは同一です。したがって、と間の確率的距離を計算することにより、2つの確率変数間の独立度を評価できます。この距離は、2つの変数が独立している場合は0です。変数間の一般的な確率論的な距離は、カルバックライブラーダイバージェンスです。ジョイント分布と2つの確率変数の周辺の積の間のカルバックライブラーダイバージェンスを採用すると、相互情報になってしまいます。p x p y p x × p y p x y pバツypバツpypバツ×pypバツy

  • 圧縮/コーディングの観点から、ペアの観測シーケンスが与えられたと想像してください。それらをファイルに圧縮したいとします。2つの戦略:すべての(x)を1つの圧縮ファイルに保存してから、独立してすべて(y)を別の圧縮ファイルに保存する。vsペアの圧縮。最適なコーダーを使用すると、最初のケースのファイルサイズはですが、2番目のケースのファイルサイズはです。2番目のアプローチは、2つの観測された変数の間に関係がある場合、より効率的です!観測ごとに何ビット節約できましたか?x y N × H X + N × H Y N × H X Y N × H X + N × H Y N × H X Y NバツyN×Hバツ+N×HYN×HバツYN×Hバツ+N×HYN×HバツYN=バツY!したがって、相互情報は、2つのデータストリームを個別にではなく共同でコーディングすることで、観測ごとに何ビット節約できるかを示します。

あなたの例についてはわかりませんが...相互情報は2つの確率変数(分布)の間で計算されます。「本」が本の中の単語の分布をどのように表すことができるかがわかります。ここで「単語」が何を意味するのかはわかりません。相互情報量には、「対の」観測値の計算も必要です。


カテゴリの複数の本があると考えてください。(基本的に、P(c)= #books of C /#totalbooksを計算できます。単語-ヒストグラムを使用します。)
Cyber​​Men

どのカテゴリを参照していますか?あなたの観察のペアは何ですか?
ピシェネット
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.