最大エントロピー分布の統計的解釈


23

最大エントロピーの原理を使用して、さまざまな設定でいくつかの分布を使用することを正当化しました。ただし、最大エントロピーの情報理論的な解釈とは対照的に、統計を定式化することはまだできていません。言い換えると、エントロピーを最大化すると、分布の統計的特性について何が示唆されるのでしょうか?

誰かに出くわしたり、最大の統計的解釈を自分自身で発見したりしました。情報には訴えず、確率論的な概念にのみ訴えるエントロピー分布?

そのような解釈の例として(必ずしも真とは限らない):「RVのドメイン上の任意の長さLの間隔(単純化のために1-d連続と仮定)では、この間隔に含まれる最大確率は最小化されます。最大エントロピー分布による。」

したがって、「情報量」やその他のより哲学的なアイデアについての話はなく、確率的な意味合いだけがあります。


3
あなたが探しているものについてより具体的にする必要があると思います:エントロピーは結局、分散などの尺度として「統計的」なので、エントロピーを最大化する最大エントロピー分布は完全に良い統計的記述です。だから私はあなたが「正当化」を思い付くために統計の外に出なければならないようです
-seanv507

1
Seanv:統計関数としてのエントロピーは、分散、期待値、スキューなどと同じくらい「統計的」であることに同意します。しかし、平均や標準偏差を例として使用すると、多数の中心極限定理の1つであり、(平均の)ロングラン合計と(標準偏差の)RMS誤差として直感的にわかります。「最大エントロピー分布の確率論的解釈」を読むために、おそらく私の質問を繰り返します。
アニカ

1
アニカ、最大エントロピー分布は、以下の解釈があります。もし IIDランダム変数は、条件付きprobalitityのあるPを| X 1 + + X N = N P *としてN ここで、P は集合{ P E P X = a }からの最大エントロピー分布ですバツ1バツ2P|バツ1++バツn=naPnP{PEPバツ=a}ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1
Ashok

2
アショクありがとう。その論文をもっと詳しく見てみましょう。これは、特定の平均に対してエントロピーを最大化する特定のケースのように見えますが、上記の結果が成り立つように、シャノンエントロピーを最大化する操作が数学的に何をしているのかについて、私はまだ興味がありますか?確率測度の最大密度または平均濃度を効果的に最小化していますか?
アニカ

回答:


19

これは実際には私の分野ではないので、いくつかの黙想:

私は驚きの概念から始めます。驚いたとはどういう意味ですか?通常、それは、予期されていなかった何かが発生したことを意味します。したがって、それは確率論的な概念であり、そのように説明することができます(IJ Goodはそれについて書いています)。ウィキペディアベイジアンサプライズも参照してください。

はい/いいえの状況の特定のケースを考えてみてください、何かが起こるかどうか。確率p発生します。たとえば、p = 0.9が発生し、それが発生しても、驚くことはありません。もしp=0.05とそれが起こる、あなたはやや驚いています。そして、p=0.0000001とそれが起こる場合、あなたは本当に驚いています。したがって、「観測された結果のサプライズ値」の自然な尺度は、発生した確率の(反)単調な関数です。何が起きたかの確率の対数をとるのは自然なことで(そしてうまく機能します...)、マイナス記号を入れて正の数を取得します。 また、対数を取ることにより、驚きの順序に集中し、実際には、確率は多かれ少なかれ順序通りにしかわからないことがよくあります。

したがって、

Surprise(A)=logp(A)
を定義します。 ここで、Aは観測結果であり、p(A)はその確率です。

今、私たちは予想される驚きとは何かを尋ねることができます。ましょX確率のベルヌーイ確率変数p。これには2つの結果、0と1があります。それぞれのサプライズ値は

Surprise(0)=log(1p)Surprise(1)=logp
観察驚きので、Xそれ自体期待有するランダム変数である
plogp+(1p)log(1p)
、それは---驚きであります!---Xのエントロピー!そのため、エントロピーは予想外の驚きです!

さて、この質問は最大エントロピーについてです。なぜ誰もが最大エントロピー分布を使用したいのでしょうか?まあ、それは彼らが最大限に驚いたいからだに違いない!なぜ誰もがそれを望むのでしょうか?

それを見る方法は次のとおりです:あなたは何かについて学びたいです、そしてその目標にいくつかの学習経験(または実験...)を設定します。このトピックに関するすべてをすでに知っていれば、常に完全に予測することができるので、驚くことはありません。それから、あなたは決して新しい経験を得ることがないので、新しいことは何も学ばないでください(しかし、あなたはすでにすべてを知っています---学ぶべきことは何もないので、それは大丈夫です)。あなたが混乱し、完全に予測することができないより典型的な状況では、学習の機会があります!これは、予想される驚き、つまりエントロピーによって「可能な学習の量」を測定できるという考えにつながります。したがって、エントロピーを最大化することは、学習の機会を最大化することに他なりません。これは有用な概念のように聞こえますが、これは実験の設計などに役立つかもしれません。

詩的な例はよく知られています

Wenn einer eine reise macht、dann kann er waserzählen...

実用的な例:オンラインテスト用のシステムを設計します(オンラインでは、全員が同じ質問を受け取るわけではなく、質問は以前の回答に応じて動的に選択されるため、何らかの方法で個人ごとに最適化されます)。

難しい質問をしすぎて、決してマスターされない場合は、何も学びません。これは、難易度を下げる必要があることを示しています。最適な難易度、つまり、学習率を最大化する難易度とは何ですか?正解の確率をpます。ベルヌーイエントロピーを最大化するpの値が必要です。しかし、それはp=0.5です。そのため、正解(その人から)を得る確率が0.5である質問を述べることを目指します。

次に、連続ランダム変数XXを観察することにより、どのように驚くことができますか?任意の特定の結果の確率{X=x}、ゼロであるlogp定義は無用です。しかし、xようなものを観測する確率が小さい場合、つまり密度関数値f(x)が小さい場合(fが連続的であると仮定した場合)、驚くことになります。それが定義につながる その定義では、Xを観察することで予想される驚きは E { log

Surprise(x)=logf(x)
X
E{logf(X)}=f(x)logf(x)dx
つまり、観察から予想驚きバツの微分エントロピーであるバツ。また、予想される対数尤度として見ることもできます。

バツ


5
これは私が見た最大エントロピーの最良かつ直感的な説明の1つです!
ヴラディスラフ・ドヴガレス

3

情報理論と最大エントロピーの専門家ではありませんが、私はしばらく興味を持っていました。

エントロピーは、一連の基準に従って導出された確率分布の不確実性の尺度です。それと関連する測定値は、確率分布を特徴付けます。そして、それらの基準を満たすユニークな尺度です。これは確率そのものの場合と似ており、Jaynes(2003)で美しく説明されているように、論理ステートメントの不確実性の尺度に対して非常に望ましい基準を満たすユニークな尺度です。

エントロピーとは異なる確率分布の不確実性のその他の尺度は、エントロピーを定義するために使用される1つ以上の基準に違反する必要があります(そうでなければ、エントロピーでなければなりません)。あなたは何とか最大エントロピーと同じ結果が得られた確率の面でいくつかの一般的なステートメントを持っていたのであれば、...それは考え最大エントロピー!

これまでの最大エントロピー分布に関する確率ステートメントに最も近いものは、ジェインズの集中定理です。Kapur and Kesavan(1992)で明確に説明されています。緩やかな修正を次に示します。

n個の結果に対する離散確率分布が必要です。つまり、我々は必要とpは、私は私は= 1 n。我々は持っているメートル私達の確率分布を満たさなければならないという制約を。さらに、確率は1に加算する必要があるため、合計m + 1があります。pnp=1nmm+1制約があります。

Sm+1S最大

N

2NS最大Sχnm12

S最大χnm120.952NS最大
S最大χnm120.952N

ET Jaynes(2003)確率論:科学の論理。 ケンブリッジ大学出版局。

JN Kapurと.K。Kesavan(1992)アプリケーションによるエントロピー最適化の原則。アカデミックプレス


3

おそらくあなたが望んでいることではありませんが、リッサネン、J。Stochastic Complexity in Statistics Inquiry、World Scientific、1989、p。41最大エントロピー、正規分布、中心極限定理の興味深い関係があります。平均ゼロおよび標準偏差を持つすべての密度の中でσ、標準密度には最大エントロピーがあります。

「したがって、この解釈では、基本的な中心極限定理は、平均ゼロと共通分散を持つ独立ランダム変数の合計のシンボルごとのエントロピーが最大になる傾向があるという事実を表現しています。これは非常に合理的です。エディントンが「自然の法則の中で最高の位置」を保持していると見なした熱力学の第二法則。

この意味合いについてはまだ調査していませんし、完全に理解しているとは思いません。

[編集:タイプミスを修正]

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.