これは実際には私の分野ではないので、いくつかの黙想:
私は驚きの概念から始めます。驚いたとはどういう意味ですか?通常、それは、予期されていなかった何かが発生したことを意味します。したがって、それは確率論的な概念であり、そのように説明することができます(IJ Goodはそれについて書いています)。ウィキペディアとベイジアンサプライズも参照してください。
はい/いいえの状況の特定のケースを考えてみてください、何かが起こるかどうか。確率p発生します。たとえば、p = 0.9が発生し、それが発生しても、驚くことはありません。もしp = 0.05とそれが起こる、あなたはやや驚いています。そして、p = 0.0000001とそれが起こる場合、あなたは本当に驚いています。したがって、「観測された結果のサプライズ値」の自然な尺度は、発生した確率の(反)単調な関数です。何が起きたかの確率の対数をとるのは自然なことで(そしてうまく機能します...)、マイナス記号を入れて正の数を取得します。 また、対数を取ることにより、驚きの順序に集中し、実際には、確率は多かれ少なかれ順序通りにしかわからないことがよくあります。
したがって、Surprise(A)=−logp(A)
を定義します。
ここで、Aは観測結果であり、p(A)はその確率です。
今、私たちは予想される驚きとは何かを尋ねることができます。ましょX確率のベルヌーイ確率変数p。これには2つの結果、0と1があります。それぞれのサプライズ値は
Surprise(0)Surprise(1)=−log(1−p)=−logp
観察驚きので、Xそれ自体期待有するランダム変数である
p⋅−logp+(1−p)⋅−log(1−p)
、それは---驚きであります!---Xのエントロピー!そのため、エントロピーは予想外の驚きです!
さて、この質問は最大エントロピーについてです。なぜ誰もが最大エントロピー分布を使用したいのでしょうか?まあ、それは彼らが最大限に驚いたいからだに違いない!なぜ誰もがそれを望むのでしょうか?
それを見る方法は次のとおりです:あなたは何かについて学びたいです、そしてその目標にいくつかの学習経験(または実験...)を設定します。このトピックに関するすべてをすでに知っていれば、常に完全に予測することができるので、驚くことはありません。それから、あなたは決して新しい経験を得ることがないので、新しいことは何も学ばないでください(しかし、あなたはすでにすべてを知っています---学ぶべきことは何もないので、それは大丈夫です)。あなたが混乱し、完全に予測することができないより典型的な状況では、学習の機会があります!これは、予想される驚き、つまりエントロピーによって「可能な学習の量」を測定できるという考えにつながります。したがって、エントロピーを最大化することは、学習の機会を最大化することに他なりません。これは有用な概念のように聞こえますが、これは実験の設計などに役立つかもしれません。
詩的な例はよく知られています
Wenn einer eine reise macht、dann kann er waserzählen...
実用的な例:オンラインテスト用のシステムを設計します(オンラインでは、全員が同じ質問を受け取るわけではなく、質問は以前の回答に応じて動的に選択されるため、何らかの方法で個人ごとに最適化されます)。
難しい質問をしすぎて、決してマスターされない場合は、何も学びません。これは、難易度を下げる必要があることを示しています。最適な難易度、つまり、学習率を最大化する難易度とは何ですか?正解の確率をpます。ベルヌーイエントロピーを最大化するpの値が必要です。しかし、それはp=0.5です。そのため、正解(その人から)を得る確率が0.5である質問を述べることを目指します。
次に、連続ランダム変数X。Xを観察することにより、どのように驚くことができますか?任意の特定の結果の確率{X=x}、ゼロである−logp定義は無用です。しかし、xようなものを観測する確率が小さい場合、つまり密度関数値f(x)が小さい場合(fが連続的であると仮定した場合)、驚くことになります。それが定義につながる
その定義では、Xを観察することで予想される驚きは
E { − logSurprise(x)=−logf(x)
XE{−logf(X)}=−∫f(x)logf(x)dx
つまり、観察から予想驚きXの微分エントロピーであるバツ。また、予想される対数尤度として見ることもできます。
バツ