「クロスエントロピー」の定義と起源


15

ソースを引用せずに、ウィキペディア離散分布Qのクロスエントロピーを次のように定義します。PQ

H×(P;Q)=xp(x)logq(x).

この数量の使用を開始したのは誰ですか?そして、この用語を発明したのは誰ですか?私が見た:

JE ShoreおよびRW Johnson、「最大エントロピーの原理と最小クロスエントロピーの原理の公理的導出」、情報理論、IEEE Transactions on、vol。26、いいえ。1、pp。26-37、1980年1月。

私は彼らの紹介に従いました

A. Wehrl、「エントロピーの一般的な特性」、Modern Physics、vol。50、いいえ。2、pp。221-260、1978年4月。

誰もこの用語を使用しません。

どちらもしない

S.カルバックとR.ライブラー、「情報と十分性について」、The Annals of Mathematical Statistics、vol。22、いいえ。1、pp。79-86、1951。

私は見た

TM CoverおよびJA Thomas、情報理論の要素(電気通信および信号処理のWileyシリーズ)。Wiley-Interscience、2006年。

そして

I.グッド、「仮説の定式化、特に多次元分割表の最大エントロピー」、The Annals of Mathematical Statistics、vol。34、いいえ。3、pp。911-934、1963。

しかし、どちらの論文も、クロスエントロピーをKL発散と同義であると定義しています。

元の紙

CEシャノン、「コミュニケーションの数学理論」、ベルシステム技術ジャーナル、vol。27、1948。

クロスエントロピーについては言及していません(また、「相対エントロピー」の奇妙な定義があります:「ソースのエントロピーと、同じシンボルに制限されている場合の最大値との比」)。

最後に、私はTribusの古い本や論文をいくつか見ました。

上記の方程式が何と呼ばれているのか、誰がそれを発明したのか、またはそれについて素晴らしいプレゼンテーションを持っているのか誰もが知っていますか?

回答:


7

12E2.22.4

編集:

追加のエイリアスには、Kullback-Leibler情報測定値、相対情報測定値、クロスエントロピー、I発散、およびKerridgeの不正確さが含まれます。


ありがとう!私はそれらの参考文献をチェックしましたが、「クロスエントロピー」という用語やマッチング式を見つけるのにまだ苦労しています。記事や本のいずれかを見た場合はお知らせください。
ニールG

1
また、特定の年までに発行された異なるエイリアスを持つ記事(たとえば、1980年までのクロスエントロピー)をGoogleの学者で後方検索することもできます。
イタマル

1
最近の編集に関して、質問にあるフォームの履歴に興味があります。私はすでに、初期の論文が「KLエントロピー」を意味する「クロスエントロピー」を使用していることに気づきました。(カルバックの論文は私の質問にあることに注意してください。)
ニールG

申し訳ありませんが、私は質問でカルバック論文を見逃した
Itamar

4

@Itamarの提案のおかげで、次の箇所に言及が見つかりました。

IJグッド、「情報理論の用語と表記」、IEEの議事録-パートC:モノグラフ、vol。103、いいえ。3、pp。200-204、1956年3月。

クロスエントロピーの素晴らしいプレゼンテーションを見つけることは、まだ私にとって本当に便利でしょう。


2

これに感謝-背景文献の良い要約。IEEEの1980年のShore and Johnsonの記事は良い出発点ですが、@ itamarの1956年のGoodモノグラフへのポインタはさらに優れています。コンセプトはシャノンの作品から来ているようで、Kullback&Leiblerの1951年のAMSノートがこの用語の現在の使用の起源です。「クロスエントロピー」という用語の起源が人工ニューラルネットワークに関連する限り、1994年に提出され、1995年に発行されたGE Hinton、P。Dayan、BJ FreyおよびRM Nealによる「ヘムホルツマシン」という用語の初期の使用があります-おそらく最初のもの。コピーのURL: http //elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf その論文、「教師なしニューラルネットワークのウェイクスリープアルゴリズム」では、式5の前の注は次のように述べています。「入力ベクトルを記述する多くの代替方法がある場合、代替記述全体のエントロピー[1]。コストは次のとおりです。」(eqn#5の論文を参照)「2番目の項は、認識重みがさまざまな代替表現に割り当てる分布のエントロピーです。」論文の後半では、eqn#5はeqn#8に書き換えられ、最後の項は初期確率分布と事後確率分布の間のKullback-Leibler発散として記述されます。論文では、「dに等しい確率を割り当てる2つの生成モデルの場合、)このペーパーでは、この特定のアルゴリズムの最小化プロセスを、Kullback-Leiblerの発散を最小化するものとして説明していますが、「代替記述にわたるエントロピー」という用語が単に「クロスエントロピー」に短縮されたようです。TensorFlowを使用したクロスエントロピーの数値例については、こちらの投稿を参照してください。)このペーパーでは、この特定のアルゴリズムの最小化プロセスを、Kullback-Leiblerの発散を最小化するものとして説明していますが、「代替記述にわたるエントロピー」という用語が単に「クロスエントロピー」に短縮されたようです。TensorFlowを使用したクロスエントロピーの数値例については、こちらの投稿を参照してください。 /programming/41990250/what-is-cross-entropy CE = 0.47965の解は、.619確率の自然対数を取得するだけで導出されることに注意してください。上記の例では、「1つのホット」エンコーディングの使用は、クロスエントロピーの合計でゼロ値の初期確率を乗算するため、他の2つの初期および事後確率が無視されることを意味します。


+1これは正しいかもしれません。だから、1994年はクロスエントロピーの現代の定義の起源だと言っているのですか?
ニールG
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.