エントロピーは何を教えてくれますか?


32

私はエントロピーについて読んでいて、それが連続的な場合の意味を概念化するのに苦労しています。wikiページには次のように記載されています。

イベントの確率分布は、すべてのイベントの情報量と相まって、この分布によって生成される情報の平均量またはエントロピーを期待値とするランダム変数を形成します。

したがって、連続的な確率分布に関連付けられたエントロピーを計算すると、実際に何がわかりますか?彼らはコインの反転についての例を挙げているので、離散的なケースですが、連続的なケースのような例を介して説明する直感的な方法があれば、それは素晴らしいことです!

役立つ場合、連続ランダム変数のエントロピーの定義はX次のとおりです。

ここで、 P X )は、確率分布関数です。

H(X)=P(x)logbP(x)dx
P(x)

以下の場合を検討し、試してみて、これをより具体化するために、そして、によるとウィキペディア、エントロピーがありますXGamma(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

それで、連続分布(ガンマ分布)のエントロピーを計算したので、αβが与えられた式評価すると、その量は実際に何を教えてくれますか? H(X)αβ


5
(+1)その引用は、本当に不幸な箇所を指します。エントロピーの数学的定義を記述し、解釈することは、面倒で不透明な方法で試みています。その定義は、。これは、log f X の期待値と見なすことができます。ここで、fは確率変数Xの pdfです。ログf x を特性化しようとしていますf(x)log(f(x))dxlog(f(X))fXlog(f(x))数値関連付けられた「情報量」として。x
whuber

5
繊細ではあるが重要な技術的問題があるため、質問する価値があります。エントロピーの連続バージョンは、離散バージョン(情報に関しては自然で直感的な解釈があります)と同じ特性を享受できません。@Tim AFAIK、数学のスレッドは離散的なケースのみに対処します。
whuber

1
考える@RustyStatistician どのような結果xをして驚かを知らせるよう。その後、予想される驚きを計算しています。log(f(x))
エイドリアン

3
技術的な問題@whuberを参照してください。これは興味深いかもしれません。
ショーンイースター

3
技術に興味がある場合:エントロピーは、それぞれのメジャーでイベント間の距離を記述するために使用されるカルバック・ライブラー発散と呼ばれる擬似メトリックに基づいています。元の(projecteuclid.org/euclid.aoms/1177729694を参照してください( KullbackとLeiblerによる論文。この概念は、AICやBICなどのモデル選択基準でも再現されます。
ジェレミアスK

回答:


31

エントロピーは、システム内の不確実性の程度を示します。猫を探しているとしましょう。猫はあなたの家と近所の人の間にあり、1マイル先にあります。あなたの子供は、距離にいる猫の確率ことを教えてくれあなたの家からは、最高で記述されたベータ分布F X ; 2 2 。猫はすなわち、0と1の間のどこかかもしれないが、より多くの可能性が真ん中にあるようにして、X mはX = 1 / 2x f(x;2,2)xmax=1/2

enter image description here

ベータ分布を方程式にプラグインして、を取得します。H=0.125

次に、妻に尋ねると、彼女はあなたの猫に関する彼女の知識を説明するのに最適な分布は均一な分布であると言います。エントロピー方程式にプラグインすると、ます。H=0

均一とベータ分布の両方が、猫はどこでもあなたの家から0と1マイルの間でもしましょう、しかし、あなたの妻は本当に猫が隠れている何の手掛かりを持っていないため、均一でより多くの不確実性は、あります、子供が持っている間、いくつかのアイデアを、彼らはそれがより多くのだと思います真ん中のどこかにいる可能性があります。それが、ベータのエントロピーがユニフォームのエントロピーよりも低い理由です。

enter image description here

あなたは多分あなたの隣人は猫がどちらかの家の近くにあることをするのが好きなので、彼のベータ分布はであるかを示します、他のディストリビューションを試してみてください。あなたは猫を探す場所についてのいくつかのアイデアを得るので、そのHは再びユニフォームのものより低くなければなりません。あなたの隣人の情報エントロピーがあなたの子供のものより高いか低いかを推測しますか?私はこれらの問題について子供たちにいつでも賭けるでしょう。α=β=1/2H

enter image description here

更新:

これはどのように作動しますか?これを考える1つの方法は、均一な分布から始めることです。最も不確実性の高いものであることに同意する場合は、それを妨害することを考えてください。簡単にするために離散的なケースを見てみましょう。テイク以下のように一点から、別のに追加: P " 私は = のp - Δのp個のP " J = P + Δ pはΔp

pi=pΔp
pj=p+Δp

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0
This means that any disturbance from the uniform distribution reduces the entropy (uncertainty). To show the same in continuous case, I'd have to use calculus of variations or something along this line, but you'll get the same kind of result, in principle.

UPDATE 2: The mean of n一様確率変数は確率変数そのものであり、ベイツ分布からのものです。CLTから、この新しいランダム変数の分散が次のように縮小することがわかります。n。そのため、その場所の不確実性は、n:猫が真ん中にいることは確実です。次のプロットとMATLABコードは、エントロピーが0からどのように減少するかを示していますn=1 (均一分布)〜 n=13。ここではdistributions31ライブラリを使用しています。

enter image description here

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'

1
(+1) I'll wait to see others interpretations but I really like this one. So it seems like to be able to make use of entropy as a measure of certainty you need to compare it against other distributions? I.e., the number by itself doesn't tell you much?
RustyStatistician

1
@RustyStatistician, I wouldn't say its absolute value is totally meaningless., but yes, it's most useful when used to compare the states of the system. The easy way to internalize entropy is to think of it as measure of uncertainty
Aksakal

Problem with this answer is that the term "uncertainty" is left undefined.
kjetil b halvorsen

1
the term is left uncertain
Aksakal

This is very nice.
Astrid

1

I'd like to add a straightforward answer to this question:

what does that quantity actually tell me?

It's intuitive to illustrate that in a discrete scenario. Suppose that you toss a heavily biased coin, saying the probability of seeing a head on each flip is 0.99. Every actual flip tells you very little information because you almost already know that it will be head. But when it comes to a fairer coin, it't harder for you to have any idear what to expect, then every flip tells you more information than any more biased coin. The quantity of information obtained by observing a single toss is equated with log1p(x).

What the quantity of the entropy tells us is the information every actual flipping on (weighted) average can convey: Elog1p(x)=p(x)log1p(x). The fairer the coin the larger the entropy, and a completely fair coin will be maximally informative.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.