シャノンのエントロピーは、各結果の確率の合計に各結果の確率の対数を掛けたものの負数です。この方程式では対数はどのような目的に役立ちますか?
(深い数学的な答えとは対照的に)直感的または視覚的な答えにボーナスポイントが与えられます!
シャノンのエントロピーは、各結果の確率の合計に各結果の確率の対数を掛けたものの負数です。この方程式では対数はどのような目的に役立ちますか?
(深い数学的な答えとは対照的に)直感的または視覚的な答えにボーナスポイントが与えられます!
回答:
シャノンエントロピーは、一連の関係を満たす量です。
要するに、対数は、システムのサイズに比例して成長し、「情報のように振る舞う」ことです。
最初は、コイン投げのエントロピことを意味する倍である回のコイン投げのエントロピー:
( -確率を有するヘッドと、おそらく不当二つの異なるコイン投げたときにそれがどのように動作するか、または単に参照する及び尾最初の硬貨のために、及びと秒間)
したがって、対数のプロパティ(製品の対数は合計対数の)は重要です。
しかし、Rényiエントロピーにもこの特性があります(実数でパラメーター化されたエントロピーで、シャノンエントロピーになります)。
ただし、ここに2番目のプロパティがあります。シャノンエントロピーは、情報に関連しているため特別です。直観的な感覚を得るために、
を平均として見ることができます
。
情報を呼び出すことができます。どうして?すべてのイベントが確率で発生する場合、イベントがあることを意味するためです。どのイベントが発生したかを知るには、ビットを使用する必要があります(各ビットは、区別できるイベントの数を2倍にします)。
「OK、すべてのイベントが同じ確率である場合、情報の尺度としてを使用するのが理にかなっています。しかし、そうでない場合、なぜ情報を平均するのが理にかなっていますか?」-そしてそれは自然な懸念です。
しかし、それは理にかなっていることがわかります- シャノンのソースコーディング定理によると、長さ確率の無相関文字を含む文字列は、より短いバイナリ文字列に圧縮できません。実際、ハフマンコーディングを使用して文字列を圧縮し、に非常に近づけることができます。n H
こちらもご覧ください:
これは他の答えと同じですが、それを説明する最良の方法は、シャノンが元の論文で言っていることを見ることだと思います。
対数測定は、さまざまな理由でより便利です。
- 実際にはもっと便利です。時間、帯域幅、リレーの数などの工学的に重要なパラメーターは、可能性の数の対数に比例して変化する傾向があります。たとえば、1つのリレーをグループに追加すると、リレーの可能な状態の数が2倍になります。この数値の2を底とする対数に1を加算します。時間を2倍にすると、考えられるメッセージの数がほぼ2倍になり、対数が2倍になります。
- 適切な尺度に関する直感的な感覚に近い。これは(1)と密接に関連しています。なぜなら、一般的な標準との線形比較によってエンティティを直感的に測定するからです。たとえば、2枚のパンチされたカードには、情報を保存するための1倍の容量と、情報を送信するための1倍の容量を持つ2つの同一チャネルが必要であると感じます。
- 数学的にはより適切です。制限操作の多くは対数の点では単純ですが、可能性の数の点では不器用な修正を必要とします
出典:Shannon、A Mathematical Theory of Communication(1948) [ pdf ]。
シャノンエントロピーは統計力学のギブスエントロピーと一致し、ギブスエントロピーでログが発生する理由の説明もあります。統計力学では、エントロピーは、システムが見つかる可能性のある状態数の尺度であると想定されています。理由より優れているあるためです通常、その引数の非常に急速に成長している関数であり、その有効テイラー展開で近似することができないのに対し、することができます。(これがログを取るための元の動機であったかどうかはわかりませんが、多くの入門物理学の本でこのように説明されています。)ログΩ Ω Ω ログΩを
これを見る別の方法は、アルゴリズムの観点からです。数値を推測し、この数値が区間にあるという唯一の情報があると想像してください。この状況では、数を推測するための最適なアルゴリズムは、順序でを見つける単純なバイナリ検索アルゴリズムです。この式は、何であるかを知るために質問する必要がある質問の数を直感的に示します。たとえば、場合、不明なを見つけるために最大3つの質問をする必要があります。1 ≤ X ≤ N X O (ログ2 Nを)xはN = 8 xと
宣言する確率的観点から、範囲内の任意の値であることが等しく可能性があるとして、それが意味するのための。クロードシャノンは、結果情報内容が次のように定義されることをうまく示しました。1つの≤ X ≤ NのP (X )= 1 / N 1 ≤ X ≤ NのX
対数の底2の理由は、ここではビット単位で情報を測定しているからです。natsで情報を測定する自然対数を仮定することもできます。例として、outcom情報コンテンツはです。この値は、バイナリ検索アルゴリズムのステップ数(またはアルゴリズムのIFステートメントの数)と正確に等しくなります。したがって、を見つけるために必要な質問の数はに等しく、結果情報内容です。
可能性のある結果について、バイナリ検索アルゴリズムのパフォーマンスを分析することもできます。それを行う1つの方法は、値について尋ねられる質問の予想数を調べることです。上で説明したように、値を推測するために必要な質問の数はことに注意してください。したがって、に対する予想される質問の数は、定義により次のようになります。
質問の期待数としてちょうど同じであるエントロピーアンサンブルの、又はショートでエントロピ。したがって、エントロピーは、結果を推測するために尋ねる必要がある質問(またはバイナリ検索アルゴリズムの計算の複雑さ)の予想(または平均)数を定量化すると結論付けることができます。
すぐに使える説明を次に示します。同じサイズの2冊の本には、1冊の本の2倍の情報があると言えますか?(本をビット列とみなします。)さて、特定の結果に確率Pがある場合、その情報内容は1 / Pを書き出すのに必要なビット数と言えます。(たとえば、P = 1/256の場合、それは8ビットです。)エントロピーは、すべての結果にわたる情報ビット長の単なる平均です。
シャノンのエントロピーに現れるの目的は、がエントロピー関数が具体化するために保持されるプロパティの基本セットを満たす唯一の関数であるということです。
シャノンは、この結果の数学的証明を提供し、徹底的に取り上げられ、広く受け入れられました。したがって、エントロピー方程式の対数の目的と重要性は、仮定と証明の範囲内に含まれています。
これは理解を容易にするものではありませんが、最終的には対数が現れる理由です。
私は、他の場所にリストされているものに加えて、次の参考文献が役立つことを発見しました。
これは、まだ見たことのないデータのすべてのあいまいさを完全に解決するために答える必要がある完璧な質問の平均総数を表すためです。可能な答えを持つ完璧な質問は、答えられると、可能性の空間が倍に減少するものです。
私が面のフェアサイコロを振って、あなたがその結果を予測すると仮定します。可能性のスペースはです。このバイナリ1のような質問は「結果ですか?」(答えはyesまたはno、つまりいずれかです)、私の答えは「nopies!」です。次に、可能性の空間をだけます。したがって、この質問は尋ねるのに適したものではありません。
あるいは、この優れたバイナリ質問「より大きいか?」などのより良い質問をすることもできます。私の答えは「はい!」です。-その後、ブーム、可能性のスペースが半分に削減されました!すなわち、そこにある候補(元々 6のうち)左。地獄うん。
ここで、可能性の空間に可能性しかない場合に到達するまで、これらの良い質問を再帰的に繰り返し続けると仮定します。
これをやろう:
結果は番でなければならないと結論付け、バイナリ質問をするだけで済みました。すなわち、
今、明らかに、バイナリ質問の数は常に自然数です。それでは、シャノンのエントロピーが関数を使用しないのはなぜですか?なぜなら、実際に尋ねる必要のある良い質問の平均数を吐き出すからです。
(Pythonコードを記述して)この実験を繰り返すと、平均で完全なバイナリ質問をする必要があることに気付くでしょう。
もちろん、バイナリの質問をする場合は、ログのベースをそれに設定します。ここでは、という質問がバイナリであったためです。の可能な答えを期待する質問をする場合、ベースをではなくに設定します。つまり、ます。
import random
total_questions = 0
TOTAL_ROUNDS = 10000
for i in range(0,TOTAL_ROUNDS):
outcome = random.randrange(1,7)
total_questions += 1
if outcome > 3.5:
total_questions += 1
if outcome >= 5:
total_questions += 1
if outcome == 5:
pass
else:
# must be 6! no need to ask
pass
else:
# must be 4! no need to ask
pass
else:
total_questions += 1
if outcome >= 2:
total_questions += 1
if outcome == 2:
pass
else:
# must be 3! no need to ask
pass
else:
# must be 1! no need to ask
pass
print 'total questions: ' + str(total_questions)
print 'average questions per outcome: ' + str(total_questions/float(TOTAL_ROUNDS))
結果:
total questions: 26634
average questions per outcome: 2.6634
聖なる男。
どうしましたか?それはだ、ほぼ近いが、私は期待していない本当に近いです。PythonのPRNGは遅いジョークを言っているのでしょうか?それとも、シャノンが間違っているのですか?それとも-神は禁じられている-私の理解は間違っていますか?いずれにせよヘルプ。SOSはすでに男です。
確率有限アルファベットからシンボルを生成する離散情報ソースがあるとします。シャノンは、メジャーとしてエントロピーを定義そのような
シャノンは、3つの要件を満たす唯一のの形式が であることをここで任意の情報測定単位に対応します。場合、この単位はビットです。
この質問は2年前に提起され、すでに多くの素晴らしい答えがありましたが、私は自分自身を大いに助けてくれたものを追加したいと思います。
質問は
この方程式では対数はどのような目的に役立ちますか?
対数(通常は2に基づく)は、クラフトの不等式によるものです。
このように直観できます。長さすべてのコードの確率の合計は1未満です。不等式から、一意にデコード可能なコードのすべてのコード長関数について、分布そのような
、
したがって、およびは、長さのコードの確率です。
シャノンのエントロピーは、すべてのコードの平均長として定義されます。長さを持つすべてのコードの確率はであるため、平均長(またはシャノンのエントロピー)はです。
直感的なイラストや視覚的な答えは(あなたが必要ですが、より具体的にクラフトの不等式の場合と同様に)本論文では、多関節れるコードツリー、およびクラフトの不等式。
既に回答が受け入れられなかったことに基づいて、探しているのは、シャノンが最初に式で対数を使用した理由だと思います。言い換えれば、それの哲学。
免責事項:私はあなたと同じような質問があるためにここに来て、1週間だけこの分野にいます。これに関するより多くの知識があれば、私に知らせてください。
ウラノウィッツの最も重要な論文の1つである「エントロピーの増加」を読んだ後に、この質問があります。熱死か永久調和か。。これは、式に(1-p)ではなく-log(p)が含まれる理由を説明する段落です。
エントロピーの正式な定義をさらに展開する前に、存在しない最も適切な尺度として[–log(p)]の代わりに(1 – p)を単に選択しない理由を尋ねるのは正当化されるでしょう。答えは、pの結果の積(つまり[p–p ^ 2])が値p = 0.5を中心に完全に対称であるということです。このような対称的な組み合わせによる計算では、可逆的な宇宙のみを記述することができます。しかし、ボルツマンとギブスは、不可逆的な宇宙を定量化しようとしていました。単変量の凸対数関数を選択することにより、ボルツマンはそれによって存在を超えないことにバイアスを与えました。たとえば、max [–xlog {x}] = {1 / e}≈0.37であることがわかります。そのため、不確定性の測定値はpiの低い値に偏っています。
シャノンは理由もなく対数を選んだようです。彼は対数を使用する必要があることを「ワカサギ」するだけです。Newtonが数式F = m * aで乗算演算を選択したのはなぜですか?
そのとき、彼はエントロピーについて全く知らなかったことに注意してください:
私の最大の懸念はそれを何と呼ぶかでした。私はそれを「情報」と呼ぶことを考えましたが、この言葉は過度に使用されていたので、「不確実性」と呼ぶことにしました。ジョン・フォン・ノイマンと話し合ったとき、彼はより良いアイデアを持っていました。フォン・ノイマンは私に言った、「あなたはそれをエントロピーと呼ぶべきだ。二つの理由がある。そもそも、あなたの不確実性関数はその名前の統計力学で使用されているので、すでに名前を持っています。第二に、そしてより重要なことには、エントロピーが実際に何であるかを誰も知らないので、議論の中であなたは常に優位に立つでしょう。
だから私の答えは:これには理由はありません。彼がこれを選んだのは、魔法のようにうまくいったからです。
ログは、特定の自然な要件を満たす関数Hの導出から得られます。pgを参照してください。3秒 このソースの2:
http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf
公理が与えられると、最適化を実行すると、ログを含む一意の(定数までの)関数が得られます。
上記の答えはすべて正しいですが、ログを解釈しますが、そのソースを説明しません。
あなたの質問は、特定の要件に対する定義の一貫性を示す単なる形式主義ではなく、その対数の「意味」と、各成分が式の全体的な意味に寄与する理由に関するものだと思います。
シャノンエントロピーの考え方は、FREQUENCY(つまり)およびGENERALITY(つまり-log)を見てメッセージの情報を評価することです。
最初の項は周波数に関するもので、はその一般性に関するものです。
これから、GENERALITYが最終的なエントロピー公式にどのように影響するかを説明します。
そのため、エンコードに必要なビット数に基づいて、一般的(例:雨/雨ではない)または特定(例:ligth / avg / heavy / veryHeavy雨)を定義できます:
さあ、座ってリラックスして、シャノンのエントロピーがいかに美しくするかを見てください。それは、より一般的なメッセージはより頻繁であるという(合理的な)仮定に基づいています。
たとえば、平均的、激しい、または非常に激しい雨の場合、雨が降っていると言います。したがって、彼は、メッセージの頻度に基づいてメッセージの一般性をエンコードすることを提案しました...
メッセージの頻度。
方程式は次のように解釈できます。まれなメッセージは一般的ではないため、エンコードが長くなります。したがって、エンコードするビットが多くなり、情報量が少なくなります。したがって、多くの一般的なメッセージや頻繁なメッセージよりも、より具体的でまれなメッセージを持つ方がエントロピーに大きく貢献します。
最終的な定式化では、2つの側面を検討します。最初のは、頻繁なメッセージの予測が容易であり、この観点からは情報量が少なくなります(つまり、エンコードが長くなるとエントロピーが大きくなります)。2番目のは、頻繁なメッセージも一般的であり、この観点からはより有益です(つまり、エンコードが短いほどエントロピーが低くなります)。
最大のエントロピーは、まれで特定のメッセージが多数あるシステムがある場合です。頻繁で一般的なメッセージを伴う最低のエントロピー。その間に、まれなメッセージと一般的なメッセージの両方、または頻繁ではあるが特定のメッセージが含まれる可能性のあるエントロピー等価システムのスペクトルがあります。
普遍的な「直感的な」答えをあなたに与えることは不可能だと思います。物理学者など、一部の人々にとって直感的な答えを提供します。対数は、システムの平均エネルギーを取得するためにあります。詳細はこちら。
シャノンは「エントロピー」という言葉を使用しました。なぜなら、彼は統計力学の概念を採用したからです。統計力学には、ボルツマンにちなんで名付けられた独創的な分布があります。興味深いことに、これは現在、機械学習において重要な分布です!
ボルツマン分布は、ように記述できます
ここは定数、は状態空間状態におけるシステムのエネルギーです。古典的な熱力学では、は粒子の座標と運動量です。定数が適切に選択されている場合、つまり 場合、これは適切な確率関数です。また、がシステムの温度に対応していることがおもしろいかもしれません。
ここで、、つまり確率の対数がエネルギーに対して線形(比例)であることに注意してください。これで、次の式が本質的にシステムのエネルギーの期待値であることがわかります
これがギブスのしたことです。
そのため、シャノンはこのことを取り、として離散化し、それを「エントロピー」と呼び、これを「シャノンエントロピー」と呼びます。そこには、よりませんエネルギーここでのコンセプトは、しかし、多分あなたは、状態の確率抗ログインできして、これを呼び出すのエネルギー状態の?
これはあなたにとって直観的ですか?それは私にとってですが、私は過去の人生の理論物理学者でした。また、温度やボルツマンとクラウジウスの作品など、さらに古い熱力学の概念にリンクすることにより、より深いレベルの直感に進むことができます。