タグ付けされた質問 「information-theory」

通信に使用されるものでも、抽象的な意味で定義されるものでも、チャネルの情報伝達容量を決定するために使用される数学/統計のブランチ。エントロピーは、情報理論家が確率変数の予測に伴う不確実性を定量化するための手段の1つです。

3
「クロスエントロピー」の定義と起源
ソースを引用せずに、ウィキペディアは離散分布とQのクロスエントロピーを次のように定義します。PPPQQQ H×(P;Q)=−∑xp(x)logq(x).H×(P;Q)=−∑xp(x)log⁡q(x).\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align} この数量の使用を開始したのは誰ですか?そして、この用語を発明したのは誰ですか?私が見た: JE ShoreおよびRW Johnson、「最大エントロピーの原理と最小クロスエントロピーの原理の公理的導出」、情報理論、IEEE Transactions on、vol。26、いいえ。1、pp。26-37、1980年1月。 私は彼らの紹介に従いました A. Wehrl、「エントロピーの一般的な特性」、Modern Physics、vol。50、いいえ。2、pp。221-260、1978年4月。 誰もこの用語を使用しません。 どちらもしない S.カルバックとR.ライブラー、「情報と十分性について」、The Annals of Mathematical Statistics、vol。22、いいえ。1、pp。79-86、1951。 私は見た TM CoverおよびJA Thomas、情報理論の要素(電気通信および信号処理のWileyシリーズ)。Wiley-Interscience、2006年。 そして I.グッド、「仮説の定式化、特に多次元分割表の最大エントロピー」、The Annals of Mathematical Statistics、vol。34、いいえ。3、pp。911-934、1963。 しかし、どちらの論文も、クロスエントロピーをKL発散と同義であると定義しています。 元の紙 CEシャノン、「コミュニケーションの数学理論」、ベルシステム技術ジャーナル、vol。27、1948。 クロスエントロピーについては言及していません(また、「相対エントロピー」の奇妙な定義があります:「ソースのエントロピーと、同じシンボルに制限されている場合の最大値との比」)。 最後に、私はTribusの古い本や論文をいくつか見ました。 上記の方程式が何と呼ばれているのか、誰がそれを発明したのか、またはそれについて素晴らしいプレゼンテーションを持っているのか誰もが知っていますか?

1
定性的にクロスエントロピーとは
この質問は、その式の観点からクロスエントロピーの定量的な定義を提供します。 より概念的な定義を探しています、ウィキペディアは言います: 情報理論では、「真の」分布pではなく、特定の確率分布qに基づいてコーディングスキームが使用される場合、 2つの確率分布間のクロスエントロピーは、可能性のセットからイベントを識別するために必要な平均ビット数を測定します。 これを理解するのに苦労している部分を強調しました。Entropyの個別の(既存の)理解を必要としない素晴らしい定義が欲しい。

4
典型的なセットコンセプト
典型的なセットの概念は非常に直感的だと思いました:シーケンスが出る確率が高い場合、長さシーケンスは典型的なセット属します。そのため、可能性が高いシーケンスはます。(定性的に理解しようとしているため、エントロピーに関連する正式な定義を避けています。)nnnA(n )ϵAϵ(n)A_\epsilon ^{(n)}A(n )ϵAϵ(n)A_\epsilon ^{(n)} ただし、一般的に、最も可能性の高いシーケンスは典型的なセットに属していません。これは私に大きな時間を混乱させました。 典型的なセットの直感的な定義はありますか?それとも、常識とはあまり関係のない数学的なツールですか?

3
ガウス混合の使用を正当化する参照
ガウス混合モデル(GMM)は、分析的にも実際的にも簡単に使用でき、あまり複雑ではないいくつかのエキゾチックな分布をモデル化できるため、魅力的です。一般に明確ではないいくつかの分析プロパティを保持する必要があります。特に: SnSnS_nnnnPPPnnnPPPlimn→∞infP^∈SnD(P||P^)=0?limn→∞infP^∈SnD(P||P^)=0?\lim_{n\rightarrow \infty}\inf_{\hat{P}\in S_n} D(P||\hat{P})=0? 我々は連続分布持っていると言う、我々は発見した -componentガウス混合近くにある全変動で:。私たちは、バインドすることができますという点で?PPPP P δ (P 、P)&lt; ε D (P | | P)εNNNP^P^\hat{P}PPPδ(P,P^)&lt;εδ(P,P^)&lt;ε\delta(P,\hat{P})<\varepsilonD(P||P^)D(P||P^)D(P||\hat{P})ϵϵ\epsilon 独立した加法性ノイズY \ sim P_Y(実数、連続の両方)を通じてX \ sim P_Xを観察したい場合、GMM \ hat {X} \ sim Q_X、\ hat {Y} \ sim Q_N where \ delta(P 、Q)&lt;\ epsilon、この値は小さい:\ left | \ mathsf {mmse}(X | X + Y)-\ mathsf …

1
微分エントロピーの解釈方法は?
最近、離散確率分布のエントロピーに関するこの記事を読みました。使用する単語の確率分布を考慮して、エンコードが最適な場合にメッセージをエンコードするのに必要な予想ビット数(少なくともエントロピー定義でを使用する場合)としてエントロピーについての素晴らしい考え方を説明します。log2log2\log_2 以下のような連続した場合に拡張するときしかし、ここで私は以来、ダウン休憩をこの考え方を信じるのために任意の連続確率分布P (X )私がいた(それが間違っている場合は、私を修正してください)、ので、離散的な場合のように、連続エントロピーの意味について良い考えがあるかどうか疑問に思います。∑xp(x)=∞∑xp(x)=∞\sum_x p(x) = \inftyp(x)p(x)p(x)



2
重要度サンプリングによって生成されたモンテカルロ推定の結果
私は過去1年間、重要性のサンプリングにかなり密接に取り組んでおり、いくつかの自由回答形式の質問があります。 重要度サンプリングスキームに関する私の実際の経験は、それらが時折素晴らしい低分散と低バイアスの推定値を生成できることです。ただし、より頻繁に、サンプル分散が低いが非常に高いバイアスを持つ高エラー推定値を生成する傾向があります。 重要性サンプリング推定の有効性に影響を与える要因の種類を誰かが正確に説明できるかどうか疑問に思っていますか?特に、私は疑問に思っています: 1)バイアス分布が元の分布と同じサポートを持っている場合、重要度サンプリング推定値は正しい結果に収束することが保証されていますか?もしそうなら、なぜこれが実際にそれほど時間がかかるように見えるのですか? 2)重要度サンプリングを通じて生成された推定値の誤差とバイアス分布の「品質」(つまり、ゼロ分散分布と一致する程度)の間に定量化可能な関係がありますか 3)1)および2)に部分的に基づいています-単純なモンテカルロ法よりも重要度サンプリングの設計を使用するほうがよい前に、分布について知る必要がある「量」を定量化する方法があります。


1
微分エントロピー
ガウスRVの差動エントロピーがあるlog2(σ2πe−−−√)log2⁡(σ2πe)\log_2(\sigma \sqrt{2\pi e})。これは、標準偏差であるσσ\sigmaに依存します。 ランダム変数を正規化して単位分散を持たせると、差分エントロピーが低下します。コルモゴロフの正規化定数の複雑さはエントロピーの減少と比較して非常に小さいはずなので、私にとってこれは直感に反します。このランダム変数によって生成されたデータセットを復元するために、正規化定数で除算/倍数するエンコーダーデコーダーを簡単に考案できます。 おそらく私の理解は外れています。私の欠陥を指摘してもらえますか?

2
さまざまなAIC定義
ウィキペディアから、赤池の情報量基準(AIC)の定義がとしてあり。ここで、はパラメーターの数、\ log Lはモデルの対数尤度です。AIC=2k−2logLAIC=2k−2log⁡L AIC = 2k -2 \log L kkklogLlog⁡L\log L しかし、私たちの計量経済学は、尊敬されている大学で、述べてい。ここで、\ hat {\ sigma} ^ 2はARMAモデルの誤差の推定分散であり、Tは時系列データセットの観測値の数です。AIC=log(σ^2)+2⋅kTAIC=log⁡(σ^2)+2⋅kT AIC = \log (\hat{\sigma}^2) + \frac{2 \cdot k}{T} σ^2σ^2 \hat{\sigma}^2 TT T 後者の定義は最初の定義と同等ですが、単にARMAモデル用に調整されていますか?または、2つの定義の間に何らかの矛盾がありますか?

1
フィッシャー情報の決定要因
(同様の質問をmath.seに投稿しました。) 情報幾何学では、フィッシャー情報行列の行列式は統計多様体上の自然な体積形式であるため、幾何学的な解釈が優れています。たとえば、ジェフリーズの事前定義に現れるという事実は、再パラメータ化の下での不変性に関連しています。これは幾何学的特性です。 しかし、統計におけるその決定要因は何ですか?意味のあるものを測定しますか?(たとえば、ゼロの場合、パラメーターは独立していないと言います。これはさらに先へ進みますか?) また、少なくともいくつかの「簡単な」場合に、それを計算するための閉じた形式はありますか?

1
相互情報を使用して、連続変数とカテゴリー変数の間の相関を推定する
タイトルに関しては、MIの前後で相互変数を使用して、連続変数とカテゴリ変数の間の「相関」(「Bを知っているときにAについてどれだけ知っているか」と定義)を推定します。問題についての私の考えをすぐに説明しますが、アドバイスをする前に、CrossValidatedに関するこの他の質問/回答を読むことをお勧めします。 ここで、カテゴリ変数を統合できないため、連続変数を離散化する必要があります。これは、Rで非常に簡単に行うことができます。Rは、ほとんどの分析で使用した言語です。このcut関数は値をエイリアスするため、この関数を使用することを好みましたが、他のオプションも利用できます。ポイントは、離散化を行う前に、「ビン」(離散状態)の数をアプリオリに決定する必要があるということです。 ただし、主な問題は別の問題です。MIの範囲は0〜∞で、これは標準化されていない尺度であるため、単位はビットです。そのため、相関係数として使用することは非常に困難です。これは、MIの標準バージョンであるGCCの前後でグローバル相関係数を使用して部分的に解決できます。GCCは次のように定義されます。 参照:この式は、株式市場のグローバル化を分析するための非線形ツールとしての相互情報からのもので、AndreiaDionísio、Rui Menezes&Diana Mendes、2010年。 GCCの範囲は0〜1であるため、2つの変数間の相関を推定するために簡単に使用できます。問題は解決しましたか?まあ、ちょっと。このプロセスはすべて、離散化中に使用することにした「ビン」の数に大きく依存するためです。ここに私の実験の結果: y軸にはGCCがあり、x軸には離散化に使用することにした「ビン」の数があります。2行は、2つの異なる(非常によく似ていますが)データセットに対して行った2つの異なる分析を示しています。 一般的にはMI、特にGCCの使用についてはまだ議論の余地があるように思われます。しかし、この混乱は私の側からの間違いの結果かもしれません。どちらの場合でも、私は問題についてあなたの意見を聞きたいです(また、カテゴリ変数と連続変数との相関を推定する代替方法がありますか?)

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 &gt; require(nlme) &gt; options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) &gt; m2&lt;-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

5
3つの確率分布のJensen-Shannon発散計算:これは大丈夫ですか?
次の3つの分布について、ジェンセンシャノンの発散を計算します。以下の計算は正しいですか?(ウィキペディアのJSD式に従いました): P1 a:1/2 b:1/2 c:0 P2 a:0 b:1/10 c:9/10 P3 a:1/3 b:1/3 c:1/3 All distributions have equal weights, ie 1/3. JSD(P1, P2, P3) = H[(1/6, 1/6, 0) + (0, 1/30, 9/30) + (1/9,1/9,1/9)] - [1/3*H[(1/2,1/2,0)] + 1/3*H[(0,1/10,9/10)] + 1/3*H[(1/3,1/3,1/3)]] JSD(P1, P2, P3) = H[(1/6, 1/5, 9/30)] - [0 + 1/3*0.693 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.