タグ付けされた質問 「entropy」

確率変数のランダム性の量を測定するために設計された数学的な量。


9
2Dバイナリマトリックスのエントロピー/情報/パターンの測定
2次元バイナリマトリックスのエントロピー/情報密度/パターンらしさを測定したい。説明のためにいくつかの写真を見せてください: このディスプレイには、かなり高いエントロピーが必要です。 A) これには中程度のエントロピーが必要です: B) 最後に、これらの写真はすべてエントロピーがゼロに近いはずです。 C) D) E) エントロピー、それぞれをキャプチャするインデックスがあります。これらのディスプレイの「パターンらしさ」? もちろん、各アルゴリズム(たとえば、圧縮アルゴリズム、またはttnphnsによって提案された回転アルゴリズム)は、ディスプレイの他の機能に敏感です。次のプロパティをキャプチャしようとするアルゴリズムを探しています: 回転対称および軸対称 クラスタリングの量 繰り返し より複雑かもしれませんが、アルゴリズムは心理的な「ゲシュタルト原理」の特性に敏感である可能性があります。特に、 近接の法則: 対称性の法則:対称的な画像は、距離があっても集合的に知覚されます: これらのプロパティを持つディスプレイには、「低エントロピー値」が割り当てられます。かなりランダム/非構造化されたポイントを持つディスプレイには、「高いエントロピー値」が割り当てられます。 ほとんどの場合、単一のアルゴリズムでこれらの機能をすべてキャプチャすることはありません。したがって、一部の機能または単一の機能のみに対処するアルゴリズムの提案も大歓迎です。 具体的には、具体的な既存のアルゴリズム、または具体的な実装可能なアイデアを探しています(これらの基準に従って賞金を授与します)。

3
モデルの赤池情報量基準(AIC)スコアはどういう意味ですか?
私はここで素人の言葉で何を意味するかについていくつかの質問を見てきましたが、これらはここでの私の目的にはあまりにも素人です。AICスコアの意味を数学的に理解しようとしています。 しかし同時に、より重要なポイントを見ないようにする厳密な証拠は必要ありません。たとえば、これが微積分であれば、私は無限小に満足し、これが確率論であれば、測定理論なしに満足します。 私の試み ここを読んで、自分自身のいくつかの表記シュガー、は、次のようにデータセットD上のモデル AIC基準です: \ text {AIC} _ {m、D} = 2k_m- 2 \ ln(L_ {m、D}) ここで、k_mはモデルmのパラメーターの数、L_ {m、D}はデータセットDのモデルmの最尤関数値です。 m D AIC m 、D = 2 k m − 2 ln (L m 、D)k m m L m 、D m DAICm,DAICm,D\text{AIC}_{m,D}mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD 上記が意味するものの私の理解はここにあります: m=arg maxθPr(D|θ)m=arg …

2
エントロピーは何を教えてくれますか?
私はエントロピーについて読んでいて、それが連続的な場合の意味を概念化するのに苦労しています。wikiページには次のように記載されています。 イベントの確率分布は、すべてのイベントの情報量と相まって、この分布によって生成される情報の平均量またはエントロピーを期待値とするランダム変数を形成します。 したがって、連続的な確率分布に関連付けられたエントロピーを計算すると、実際に何がわかりますか?彼らはコインの反転についての例を挙げているので、離散的なケースですが、連続的なケースのような例を介して説明する直感的な方法があれば、それは素晴らしいことです! 役立つ場合、連続ランダム変数のエントロピーの定義はXXX次のとおりです。 ここで、 P (X )は、確率分布関数です。H(X)=−∫P(x)logbP(x)dxH(X)=−∫P(x)logb⁡P(x)dxH(X)=-\int P(x)\log_b P(x)dxP(x)P(x)P(x) 以下の場合を検討し、試してみて、これをより具体化するために、そして、によるとウィキペディア、エントロピーがありますX∼Gamma(α,β)X∼Gamma(α,β)X\sim \text{Gamma}(\alpha,\beta) H(X)=E[−ln(P(X))]=E[−αln(β)+ln(Γ(α))+ln(Γ(α))−(α−1)ln(X)+βX]=α−ln(β)+ln(Γ(α))+(1−α)(ddαln(Γ(α)))H(X)=E[−ln⁡(P(X))]=E[−αln⁡(β)+ln⁡(Γ(α))+ln⁡(Γ(α))−(α−1)ln⁡(X)+βX]=α−ln⁡(β)+ln⁡(Γ(α))+(1−α)(ddαln⁡(Γ(α)))\begin{align} H(X)&=\mathbb{E}[-\ln(P(X))]\\ &=\mathbb{E}[-\alpha\ln(\beta)+\ln(\Gamma(\alpha))+\ln(\Gamma(\alpha))-(\alpha-1)\ln(X)+\beta X]\\ &=\alpha-\ln(\beta)+\ln(\Gamma(\alpha))+(1-\alpha)\left(\frac{d}{d\alpha}\ln(\Gamma(\alpha))\right) \end{align} それで、連続分布(ガンマ分布)のエントロピーを計算したので、αとβが与えられた式評価すると、その量は実際に何を教えてくれますか? H(X)H(X)H(X)αα\alphaββ\beta
32 entropy 

6
確率分布が均一なときにエントロピーが最大化されるのはなぜですか?
エントロピーはプロセス/変数のランダム性の尺度であり、次のように定義できることを知っています。ランダム変数X∈X∈X \in set AAA :- H(X)=∑xi∈A−p(xi)log(p(xi))H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) . In the book on Entropy and Information Theory by MacKay, he provides this statement in Ch2 Entropy is maximized if p is uniform. Intuitively, I am able to understand it, like if all datapoints in set AAA …

3
時間パラドックスのシャリジのベイジアン後方矢印のエントロピーに基づく反論?
で、この論文、有能な研究者コスマ・シャリッチは完全に主観的ベイズビューを受け入れるために、1にも(エントロピーの流れによって与えられた)時間の矢が実際に行くべきであると非物理的な結果受け入れなければならないと主張している後方を。これは主にETジェインズによって提唱され、一般化された最大エントロピー/完全に主観的なベイジアンの見解に反論する試みです。 以上でLessWrong、多くの貢献者は、非常にフォーマルな意思決定理論の基礎としてベイズ確率理論的にも主観的ベイズアプローチに興味を持って強いAIに向けた足がかりさエリエゼル・ユードコウスキーがあり、共通の貢献者であり、私が最近読んでいたこのポストをするときI このコメントに出くわしました(元の投稿のページでは、そのすぐ後にいくつかの他の良いコメントがあります)。 YudkowskyのShaliziへの反論の有効性について誰でもコメントできますか。簡単に言えば、ユドコフスキーの論拠は、推論エージェントが信念を更新する物理的メカニズムには作業が必要であり、したがってシャリジが敷物の下で掃除している熱力学的なコストがあるということです。別のコメントで、ユドコフスキーはこれを擁護し、次のように述べています。 「システム外の論理的に全知の完全な観測者の視点をとる場合、「確率」と同様に「エントロピー」の概念はほとんど意味がありません-統計熱力学を使用して何かをモデル化する必要はありません。波動方程式。」 確率論者や統計力学はこれについてコメントできますか?私はシャリジとユドコフスキーのどちらの地位に関する権威からの議論についてもあまり気にしませんが、ユドコフスキーの3つのポイントがシャリジの記事を批判する方法の概要を見たいです。 FAQガイドラインに準拠し、これを具体的に回答可能な質問にするために、ユドコフスキーの3つのステップの引数を取り、それら3つのステップが仮定や派生に反論する3つのステップを示す具体的な項目別の回答を求めていることに注意してください一方、シャリジの論文でユドコフスキーの議論が扱われている場所を示しています。 シャリジの記事は、本格的な主観的ベイジアン主義を擁護できないという鉄に覆われた証拠として宣伝されていることがよくあります...観察されているもの(つまり、実際の物理学すべて)と相互作用する観察者に。しかし、Shaliziは素晴らしい研究者なので、この議論の重要な部分を理解していない可能性が高いため、セカンドオピニオンを歓迎します。

2
クロスエントロピーとKLダイバージェンスの違いは何ですか?
クロスエントロピーとKLダイバージェンスはどちらも、2つの確率分布間の距離を測定するためのツールです。違いはなんですか? また、KLの最小化は、クロスエントロピーの最小化と等価です。K L (P | Q )= ∑ x P (x )log P (x )H(P、Q )= − ∑バツP(x )ログQ (x )H(P、Q)=−ΣバツP(バツ)ログ⁡Q(バツ) H(P,Q) = -\sum_x P(x)\log Q(x) KL (P| Q)= ∑バツP(x )ログP(x )Q (x )KL(P|Q)=ΣバツP(バツ)ログ⁡P(バツ)Q(バツ) KL(P | Q) = \sum_{x} P(x)\log {\frac{P(x)}{Q(x)}} 本能的に知りたい。 事前にどうもありがとうございました。

3
情報理論のないカルバック・ライブラーの発散
Cross Validatedを何度も探した後、私はまだ情報理論の領域外でKLの発散を理解することに近づいているとは感じていません。数学のバックグラウンドを持つ人が情報理論の説明をはるかに理解しやすいと感じるのは、かなり奇妙です。 情報理論の背景から私の理解を概説するために:有限数の結果を持つランダム変数がある場合、平均して最短のメッセージで他の誰かと結果を伝えることができる最適なエンコーディングが存在しますビット単位の画像)。結果を伝えるために必要なメッセージの予想される長さは、最適なエンコーディングが使用されている場合、で与えられます。最適以下のエンコーディングを使用する場合、KLダイバージェンスは、平均してメッセージの長さを示します。−∑αpαlog2(pα)−∑αpαlog2⁡(pα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) この説明は、KL発散の非対称性を非常に直感的に扱っているため、気に入っています。2つの異なるシステム、つまり異なる方法でロードされた2つのロードされたコインがある場合、それらは異なる最適なエンコーディングを持ちます。2番目のシステムのエンコーディングを1番目のシステムに使用することは、1番目のシステムのエンコーディングを2番目に使用することと「同等に悪い」とは思わず感じます。どうやって自分を納得させるかという思考プロセスを経ることなく、私はは、のエンコーディングを使用するときに、この「余分なメッセージの長さ」を与えます。∑αpα(log2qα−log2pα)∑αpα(log2⁡qα−log2⁡pα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})qqqppp ただし、ウィキペディアを含むKL発散のほとんどの定義は、2つの離散確率がある場合、(ビットが離散であるため離散用語ではるかにうまく機能する情報理論の解釈と比較できるように、これを離散用語で保持します)分布の場合、KLは「それらの違い」のメトリックを提供します。これらの2つの概念がどのように関連しているのかについての説明はまだありません。私は彼の推論に関する本で覚えているようです、デイブ・マッケイはデータ圧縮と推論が基本的に同じことである点について指摘しており、私の質問はこれに本当に関連していると思います。 それがそうであるかそうでないかにかかわらず、私が念頭に置いているのは、推論の問題に関する質問です。(物事を個別に保つ)、2つの放射性サンプルがあり、そのうちの1つが既知の放射能を持つ特定の物質であることがわかっている場合(これは疑わしい物理学ですが、宇宙がそのように動作するふりをしましょう)、したがって、「真の」分布を知っています測定すべき放射性クリックの既知の持つポアソニアンである必要があります。両方のサンプルの経験的分布を構築し、それらのKL発散を既知の分布と比較し、低い方がその材料である可能性が高いと言いますか?λλ\lambda 疑わしい物理学から離れて、同じ分布から2つのサンプルが取り出されていることを知っているが、それらがランダムに選択されていないことがわかっている場合、KLの発散を既知のグローバル分布と比較すると、サンプルがどのようにバイアスされているかの感覚が得られますとにかく他と比較して? 最後に、前の質問に対する答えが「はい」の場合、なぜですか?これらのことを、情報理論への(おそらくは希薄な)つながりを作らずに、統計的な観点だけから理解することは可能ですか?

3
最大エントロピー分布の統計的解釈
最大エントロピーの原理を使用して、さまざまな設定でいくつかの分布を使用することを正当化しました。ただし、最大エントロピーの情報理論的な解釈とは対照的に、統計を定式化することはまだできていません。言い換えると、エントロピーを最大化すると、分布の統計的特性について何が示唆されるのでしょうか? 誰かに出くわしたり、最大の統計的解釈を自分自身で発見したりしました。情報には訴えず、確率論的な概念にのみ訴えるエントロピー分布? そのような解釈の例として(必ずしも真とは限らない):「RVのドメイン上の任意の長さLの間隔(単純化のために1-d連続と仮定)では、この間隔に含まれる最大確率は最小化されます。最大エントロピー分布による。」 したがって、「情報量」やその他のより哲学的なアイデアについての話はなく、確率的な意味合いだけがあります。

3
MaxEnt、ML、Bayes、およびその他の種類の統計的推論方法の比較
私は統計学者ではありません(数理統計学のコースを受講しましたが、それ以上のコースはありません)。最近、情報理論と統計力学を学んでいる間に、「不確実性尺度」/「エントロピー」と呼ばれるものに出会いました。私はKhinchinの派生物を不確実性の尺度として読み、それは私にとって理にかなっています。別の意味があるのは、サンプルの1つ以上の関数の算術平均を知っているときに統計を取得するMaxEntのJaynesの説明です(もちろん、不確実性の尺度としてを受け入れたと仮定)。 − ∑ p私lnp私−∑p私ln⁡p私-\sum p_i\ln p_i そこで、ネット上で検索して、他の統計的推論方法との関係を見つけましたが、神は私を混乱させました。例えば、この論文は、私がそれを正しかったと仮定して、問題の適切な再定式化の下でML推定量を得るだけであることを示唆しています。MacKeyは、彼の本の中で、MaxEntは奇妙なものを与えることができると言います。ベイジアン推論の最初の推定にも使用すべきではありません。など。私は良い比較を見つけるのに苦労しています。 私の質問は、MaxEntの弱点と強点の説明および/または適切な参照を、他の方法との定量的比較を伴う統計的推論方法として提供できますか(たとえば、おもちゃモデルに適用する場合)?

4
画像のエントロピー
画像のエントロピーを計算するための最も情報/物理学的に正しい方法は何ですか?私は今、計算効率を気にしません-理論的に可能な限り正確にしたいです。 グレースケール画像から始めましょう。直感的なアプローチの1つは、画像をピクセルのバッグと見なし、を計算することです。 ここで、はグレーレベルの数、はグレーレベル関連する確率です。K p k kH=−∑kpklog2(pk)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) KKKpkpkp_kkkk この定義には2つの問題があります。 1つのバンド(グレースケール)で機能しますが、統計的に正しい方法で複数のバンドに拡張する方法を教えてください。たとえば、2つのバンドの場合、を使用してを基にしてPMFを基にしますか?多くの( >> 2)バンドがある場合、、これは間違っているようです。(X1,X2)(X1,X2)(X_1,X_2)P(X1=x1,X2=x2)P(X1=x1,X2=x2)P(X_1=x_1,X_2=x_2)BBBP(X1=x1,...,XB=xB)∼1/NB→HMAXP(X1=x1,...,XB=xB)∼1/NB→HMAXP(X_1=x_1, ..., X_B=x_B) \sim 1/N^B \rightarrow H_{MAX} 空間情報は考慮されません。たとえば、以下の画像(John Loomisの管理者)は同じ持っていますが、明らかに同じ情報を伝えていません。HHH 誰もが説明やアドバイスをしたい、または主題に関するまともな参考資料を参照したいですか?私は主に、2番目の問題(空間情報)の理論的に正しいアプローチに興味があります。

2
経験的エントロピーとは何ですか?
共同で典型的な集合の定義(「情報理論の要素」、ch。7.6、p。195)では、 として経験的エントロピーのn個と-sequenceP(XのN)=Π N iは= 1つの Pを(XI)。これまでこの用語に出会ったことはありません。本のインデックスに従ってどこでも明示的に定義されていません。−1nlogp(xn)−1nlog⁡p(xn)-\frac{1}{n} \log{p(x^n)}nnnp(xn)=∏ni=1p(xi)p(xn)=∏i=1np(xi)p(x^n) = \prod_{i=1}^{n}{p(x_i)} 私の質問は基本的には次のとおりです。なぜ経験的エントロピーはない場所P(X )で経験分布?−∑xp^(x)log(p^(x))−∑xp^(x)log⁡(p^(x))-\sum_{x}{\hat p (x) \log(\hat p(x))}p^(x)p^(x)\hat p(x) これら2つの式の最も興味深い違いと類似点は何ですか?(共有する/しないプロパティの観点から)。

6
さまざまな種類のエントロピーの優れた紹介
サンプルエントロピーやシャノンエントロピーなどのさまざまな種類のエントロピーと、それらの長所と短所を説明する本またはオンラインリソースを探しています。誰かが私を正しい方向に向けることができますか?

2
点ごとの相互情報の境界が与えられた相互情報の境界
2つのセットとあり、これらのセット同時確率分布があるとします。ましょう及び上に周辺分布示すおよびそれぞれ。Y p (x 、y )p (x )p (y )X YXXXYYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY と間の相互情報は次のように定義されます: Y I (X ; Y )= Σ X 、Y P (X 、Y )⋅ ログ(P (X 、Y )XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) すなわち、点ごとの相互情報pmiの平均値です。(x,y)≡log(p(x,y)p(x)p(y))(x,y)≡log⁡(p(x,y)p(x)p(y))(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right) pmi上限と下限を知っていると仮定します。つまり、すべての次のことが成り立つことを知っています。- のX 、Y - K ≤ ログ(P (X 、Y )(x,y)(x,y)(x,y)x,yx,yx,y−k≤log(p(x,y)p(x)p(y))≤k−k≤log⁡(p(x,y)p(x)p(y))≤k-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k 何の上限は、これは上の意味するものではありません。もちろん、これは意味しが、可能であれば、より厳密な範囲が必要です。pは確率分布を定義し、pmiはおよびすべての値に対して最大値を取ることができない(または負でないことさえある)ため、これは私にはもっともらしいようです。I (X …

1
ブライマンのランダムフォレストは、情報ゲインまたはGiniインデックスを使用しますか?
ブライマンのランダムフォレスト(R randomForestパッケージのランダムフォレスト)が分割基準(属性選択の基準)情報ゲインまたはGiniインデックスとして使用するかどうかを知りたいのですが?私はhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htmとRのrandomForestパッケージのドキュメントでそれを見つけようとしました。しかし、私が見つけた唯一のことは、Giniインデックスを使用できることです変数重要度計算。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.