統計とビッグデータ information-theory

3

ソースを引用せずに、ウィキペディアは離散分布とQのクロスエントロピーを次のように定義します。PPPQQQ H×(P;Q)=−∑xp(x)logq(x).H×(P;Q)=−∑xp(x)log⁡q(x).\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align} この数量の使用を開始したのは誰ですか？そして、この用語を発明したのは誰ですか？私が見た： JE ShoreおよびRW Johnson、「最大エントロピーの原理と最小クロスエントロピーの原理の公理的導出」、情報理論、IEEE Transactions on、vol。26、いいえ。1、pp。26-37、1980年1月。私は彼らの紹介に従いました A. Wehrl、「エントロピーの一般的な特性」、Modern Physics、vol。50、いいえ。2、pp。221-260、1978年4月。誰もこの用語を使用しません。どちらもしない S.カルバックとR.ライブラー、「情報と十分性について」、The Annals of Mathematical Statistics、vol。22、いいえ。1、pp。79-86、1951。私は見た TM CoverおよびJA Thomas、情報理論の要素（電気通信および信号処理のWileyシリーズ）。Wiley-Interscience、2006年。そして I.グッド、「仮説の定式化、特に多次元分割表の最大エントロピー」、The Annals of Mathematical Statistics、vol。34、いいえ。3、pp。911-934、1963。しかし、どちらの論文も、クロスエントロピーをKL発散と同義であると定義しています。元の紙 CEシャノン、「コミュニケーションの数学理論」、ベルシステム技術ジャーナル、vol。27、1948。クロスエントロピーについては言及していません（また、「相対エントロピー」の奇妙な定義があります：「ソースのエントロピーと、同じシンボルに制限されている場合の最大値との比」）。最後に、私はTribusの古い本や論文をいくつか見ました。上記の方程式が何と呼ばれているのか、誰がそれを発明したのか、またはそれについて素晴らしいプレゼンテーションを持っているのか誰もが知っていますか？

15 information-theory entropy

1

定性的にクロスエントロピーとは

この質問は、その式の観点からクロスエントロピーの定量的な定義を提供します。より概念的な定義を探しています、ウィキペディアは言います：情報理論では、「真の」分布pではなく、特定の確率分布qに基づいてコーディングスキームが使用される場合、 2つの確率分布間のクロスエントロピーは、可能性のセットからイベントを識別するために必要な平均ビット数を測定します。これを理解するのに苦労している部分を強調しました。Entropyの個別の（既存の）理解を必要としない素晴らしい定義が欲しい。

15 entropy information-theory

4

典型的なセットコンセプト

典型的なセットの概念は非常に直感的だと思いました：シーケンスが出る確率が高い場合、長さシーケンスは典型的なセット属します。そのため、可能性が高いシーケンスはます。（定性的に理解しようとしているため、エントロピーに関連する正式な定義を避けています。）nnnA（n ）ϵAϵ（n）A_\epsilon ^{(n)}A（n ）ϵAϵ（n）A_\epsilon ^{(n)} ただし、一般的に、最も可能性の高いシーケンスは典型的なセットに属していません。これは私に大きな時間を混乱させました。典型的なセットの直感的な定義はありますか？それとも、常識とはあまり関係のない数学的なツールですか？

14 entropy intuition information-theory

3

ガウス混合の使用を正当化する参照

ガウス混合モデル（GMM）は、分析的にも実際的にも簡単に使用でき、あまり複雑ではないいくつかのエキゾチックな分布をモデル化できるため、魅力的です。一般に明確ではないいくつかの分析プロパティを保持する必要があります。特に： SnSnS_nnnnPPPnnnPPPlimn→∞infP^∈SnD(P||P^)=0?limn→∞infP^∈SnD(P||P^)=0?\lim_{n\rightarrow \infty}\inf_{\hat{P}\in S_n} D(P||\hat{P})=0? 我々は連続分布持っていると言う、我々は発見した -componentガウス混合近くにある全変動で：。私たちは、バインドすることができますという点で？PPPP P δ （P 、P）< ε D （P | | P）εNNNP^P^\hat{P}PPPδ(P,P^)<εδ(P,P^)<ε\delta(P,\hat{P})<\varepsilonD(P||P^)D(P||P^)D(P||\hat{P})ϵϵ\epsilon 独立した加法性ノイズY \ sim P_Y（実数、連続の両方）を通じてX \ sim P_Xを観察したい場合、GMM \ hat {X} \ sim Q_X、\ hat {Y} \ sim Q_N where \ delta（P 、Q）<\ epsilon、この値は小さい：\ left | \ mathsf {mmse}（X | X + Y）-\ mathsf …

14 probability normal-distribution references gaussian-mixture information-theory

1

微分エントロピーの解釈方法は？

最近、離散確率分布のエントロピーに関するこの記事を読みました。使用する単語の確率分布を考慮して、エンコードが最適な場合にメッセージをエンコードするのに必要な予想ビット数（少なくともエントロピー定義でを使用する場合）としてエントロピーについての素晴らしい考え方を説明します。log2log2\log_2 以下のような連続した場合に拡張するときしかし、ここで私は以来、ダウン休憩をこの考え方を信じるのために任意の連続確率分布P （X ）私がいた（それが間違っている場合は、私を修正してください）、ので、離散的な場合のように、連続エントロピーの意味について良い考えがあるかどうか疑問に思います。∑xp(x)=∞∑xp(x)=∞\sum_x p(x) = \inftyp(x)p(x)p(x)

14 entropy information-theory

1

微分エントロピーは常に無限未満ですか？

任意の連続確率変数、たとえば場合、微分エントロピーは常に未満ですか？（あれば問題ありません。）そうでない場合、未満になるための必要十分条件は何ですか？XXX∞∞\infty−∞−∞-\infty∞∞\infty

14 entropy information-theory maximum-entropy

2

固定共分散行列の最大エントロピー分布がガウス分布であることを証明します

ガウスが最大エントロピーを持っているという次の証拠について頭を動かそうとしています。スター付きのステップはどのように意味がありますか？特定の共分散は、2番目の瞬間のみを修正します。3番目、4番目、5番目の瞬間などはどうなりますか？

13 entropy information-theory maximum-entropy

2

重要度サンプリングによって生成されたモンテカルロ推定の結果

私は過去1年間、重要性のサンプリングにかなり密接に取り組んでおり、いくつかの自由回答形式の質問があります。重要度サンプリングスキームに関する私の実際の経験は、それらが時折素晴らしい低分散と低バイアスの推定値を生成できることです。ただし、より頻繁に、サンプル分散が低いが非常に高いバイアスを持つ高エラー推定値を生成する傾向があります。重要性サンプリング推定の有効性に影響を与える要因の種類を誰かが正確に説明できるかどうか疑問に思っていますか？特に、私は疑問に思っています： 1）バイアス分布が元の分布と同じサポートを持っている場合、重要度サンプリング推定値は正しい結果に収束することが保証されていますか？もしそうなら、なぜこれが実際にそれほど時間がかかるように見えるのですか？ 2）重要度サンプリングを通じて生成された推定値の誤差とバイアス分布の「品質」（つまり、ゼロ分散分布と一致する程度）の間に定量化可能な関係がありますか 3）1）および2）に部分的に基づいています-単純なモンテカルロ法よりも重要度サンプリングの設計を使用するほうがよい前に、分布について知る必要がある「量」を定量化する方法があります。

13 monte-carlo information-theory importance-sampling

1

統計または情報理論における量使用はありますか？

統計または情報理論における量使用はありますか？∫f(x)2dx∫f(x)2dx \int f(x)^2 dx

13 probability entropy information-theory

1

微分エントロピー

ガウスRVの差動エントロピーがあるlog2(σ2πe−−−√)log2⁡(σ2πe)\log_2(\sigma \sqrt{2\pi e})。これは、標準偏差であるσσ\sigmaに依存します。ランダム変数を正規化して単位分散を持たせると、差分エントロピーが低下します。コルモゴロフの正規化定数の複雑さはエントロピーの減少と比較して非常に小さいはずなので、私にとってこれは直感に反します。このランダム変数によって生成されたデータセットを復元するために、正規化定数で除算/倍数するエンコーダーデコーダーを簡単に考案できます。おそらく私の理解は外れています。私の欠陥を指摘してもらえますか？

13 information-theory entropy randomness

2

さまざまなAIC定義

ウィキペディアから、赤池の情報量基準（AIC）の定義がとしてあり。ここで、はパラメーターの数、\ log Lはモデルの対数尤度です。AIC=2k−2logLAIC=2k−2log⁡L AIC = 2k -2 \log L kkklogLlog⁡L\log L しかし、私たちの計量経済学は、尊敬されている大学で、述べてい。ここで、\ hat {\ sigma} ^ 2はARMAモデルの誤差の推定分散であり、Tは時系列データセットの観測値の数です。AIC=log(σ^2)+2⋅kTAIC=log⁡(σ^2)+2⋅kT AIC = \log (\hat{\sigma}^2) + \frac{2 \cdot k}{T} σ^2σ^2 \hat{\sigma}^2 TT T 後者の定義は最初の定義と同等ですが、単にARMAモデル用に調整されていますか？または、2つの定義の間に何らかの矛盾がありますか？

12 econometrics aic arma information-theory

1

フィッシャー情報の決定要因

（同様の質問をmath.seに投稿しました。）情報幾何学では、フィッシャー情報行列の行列式は統計多様体上の自然な体積形式であるため、幾何学的な解釈が優れています。たとえば、ジェフリーズの事前定義に現れるという事実は、再パラメータ化の下での不変性に関連しています。これは幾何学的特性です。しかし、統計におけるその決定要因は何ですか？意味のあるものを測定しますか？（たとえば、ゼロの場合、パラメーターは独立していないと言います。これはさらに先へ進みますか？）また、少なくともいくつかの「簡単な」場合に、それを計算するための閉じた形式はありますか？

12 variance information-theory fisher-information information-geometry

1

相互情報を使用して、連続変数とカテゴリー変数の間の相関を推定する

タイトルに関しては、MIの前後で相互変数を使用して、連続変数とカテゴリ変数の間の「相関」（「Bを知っているときにAについてどれだけ知っているか」と定義）を推定します。問題についての私の考えをすぐに説明しますが、アドバイスをする前に、CrossValidatedに関するこの他の質問/回答を読むことをお勧めします。ここで、カテゴリ変数を統合できないため、連続変数を離散化する必要があります。これは、Rで非常に簡単に行うことができます。Rは、ほとんどの分析で使用した言語です。このcut関数は値をエイリアスするため、この関数を使用することを好みましたが、他のオプションも利用できます。ポイントは、離散化を行う前に、「ビン」（離散状態）の数をアプリオリに決定する必要があるということです。ただし、主な問題は別の問題です。MIの範囲は0〜∞で、これは標準化されていない尺度であるため、単位はビットです。そのため、相関係数として使用することは非常に困難です。これは、MIの標準バージョンであるGCCの前後でグローバル相関係数を使用して部分的に解決できます。GCCは次のように定義されます。参照：この式は、株式市場のグローバル化を分析するための非線形ツールとしての相互情報からのもので、AndreiaDionísio、Rui Menezes＆Diana Mendes、2010年。 GCCの範囲は0〜1であるため、2つの変数間の相関を推定するために簡単に使用できます。問題は解決しましたか？まあ、ちょっと。このプロセスはすべて、離散化中に使用することにした「ビン」の数に大きく依存するためです。ここに私の実験の結果： y軸にはGCCがあり、x軸には離散化に使用することにした「ビン」の数があります。2行は、2つの異なる（非常によく似ていますが）データセットに対して行った2つの異なる分析を示しています。一般的にはMI、特にGCCの使用についてはまだ議論の余地があるように思われます。しかし、この混乱は私の側からの間違いの結果かもしれません。どちらの場合でも、私は問題についてあなたの意見を聞きたいです（また、カテゴリ変数と連続変数との相関を推定する代替方法がありますか？）

12 correlation information-theory mutual-information

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

5

3つの確率分布のJensen-Shannon発散計算：これは大丈夫ですか？

次の3つの分布について、ジェンセンシャノンの発散を計算します。以下の計算は正しいですか？（ウィキペディアのJSD式に従いました）： P1 a:1/2 b:1/2 c:0 P2 a:0 b:1/10 c:9/10 P3 a:1/3 b:1/3 c:1/3 All distributions have equal weights, ie 1/3. JSD(P1, P2, P3) = H[(1/6, 1/6, 0) + (0, 1/30, 9/30) + (1/9,1/9,1/9)] - [1/3*H[(1/2,1/2,0)] + 1/3*H[(0,1/10,9/10)] + 1/3*H[(1/3,1/3,1/3)]] JSD(P1, P2, P3) = H[(1/6, 1/5, 9/30)] - [0 + 1/3*0.693 …

12 distance-functions information-theory

タグ付けされた質問 「information-theory」

タグ付けされた質問「information-theory」