共同で典型的な集合の定義(「情報理論の要素」、ch。7.6、p。195)では、
として経験的エントロピーのn個と-sequenceP(XのN)=Π N iは= 1つの Pを(XI)。これまでこの用語に出会ったことはありません。本のインデックスに従ってどこでも明示的に定義されていません。
私の質問は基本的には次のとおりです。なぜ経験的エントロピーはない場所P(X )で経験分布?
これら2つの式の最も興味深い違いと類似点は何ですか?(共有する/しないプロパティの観点から)。
共同で典型的な集合の定義(「情報理論の要素」、ch。7.6、p。195)では、
として経験的エントロピーのn個と-sequenceP(XのN)=Π N iは= 1つの Pを(XI)。これまでこの用語に出会ったことはありません。本のインデックスに従ってどこでも明示的に定義されていません。
私の質問は基本的には次のとおりです。なぜ経験的エントロピーはない場所P(X )で経験分布?
これら2つの式の最も興味深い違いと類似点は何ですか?(共有する/しないプロパティの観点から)。
回答:
データがある場合であり、n個のサンプル空間から-sequence X、経験ポイント確率は、 P(X )= 1 のためのx∈X。ここで、δx(xi)は、xi=xの場合は1、それ以外の場合はゼロです。すなわち、P(xは)の相対頻度であるX観察された配列です。エントロピー経験点確率によって与えられた確率分布のは、 H( P)=-Σ
エントロピーは確率分布に対して定義されます。データがなく、データのみがあり、確率分布の単純な推定量をプラグインすると、経験的エントロピーが得られます。これは、別の回答に示されているように、離散(多項)分布に対して最も簡単ですが、ビニングなどによって他の分布に対しても実行できます。
経験的エントロピーの問題は、小さなサンプルに対して偏っていることです。確率分布の単純な推定は、サンプリングノイズによる余分な変動を示しています。もちろん、より良い推定器、例えば、多項パラメータに適した事前分布を使用することもできますが、それを本当に偏りのないものにすることは簡単ではありません。
上記は条件付き分布にも適用されます。さらに、すべてがビニング(またはカーネル化)に関連しているため、実際には一種の微分エントロピーがあります。