タグ付けされた質問 「information-theory」

通信に使用されるものでも、抽象的な意味で定義されるものでも、チャネルの情報伝達容量を決定するために使用される数学/統計のブランチ。エントロピーは、情報理論家が確率変数の予測に伴う不確実性を定量化するための手段の1つです。

3
共同エントロピーに関する直感
ジョイントエントロピーに関する直感を構築するのに苦労しています。 =共同分布の不確実性p (x 、y ) ; H (X ) = p x(x )の不確実性; H (Y ) = p y(y )の不確実性。H(X、Y)H(X,Y)H(X,Y)p (x 、y)p(x,y)p(x,y)H(X)H(X)H(X)pバツ(x )px(x)p_x(x)H(Y)H(Y)H(Y)py(y)py(y)p_y(y) H(X)が高い場合、分布はより不確実であり、そのような分布の結果を知っている場合、より多くの情報があります!したがって、H(X)も情報を定量化します。 今、私たちは見ることができますH(X、Y)≤ H(X)+ H(Y)H(X,Y)≤H(X)+H(Y)H(X,Y) \leq H(X) + H(Y) しかし、がわかっている場合は、p x(x )とp y(y )を取得できるため、ある意味でp (x 、y )はp x(x )とp y(y )の両方よりも多くの情報を持っています、それでp(x、y)に関連する不確実性は、個々の不確実性の合計よりも多くあるべきではありませんか?p (x 、y)p(x,y)p(x,y)pバツ(x )px(x)p_x(x)py(y)py(y)p_y(y)p (x 、y)p(x,y)p(x,y)pバツ(x )px(x)p_x(x)py(y)py(y)p_y(y)

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
softmax分類器を参照して確率を記録
このhttps://cs231n.github.io/neural-networks-case-study/で、「Softmax分類器はffのすべての要素を3つのクラスの(非正規化された)ログ確率を保持していると解釈する」と述べているのはなぜですか。 なぜそれが非正規化されているのか理解できますが、なぜログなのかわかりませんか?対数確率とはどういう意味ですか? なぜ正規化されていない確率を言うだけではないのですか?

2
BICが有用でAICが役に立たない状況はありますか?
以下のためのWikipediaのエントリでは赤池の情報量基準、我々は下の読みBICとの比較(ベイズ情報量基準)という ... AIC / AICcにはBICよりも理論上の利点があります... AIC / AICcは情報の原則から導き出されます。BICはそうではありません... BICには1 / R(Rは候補モデルの数)の事前確率があります。これは「賢明ではない」... AICcはBICよりも実用的/パフォーマンス上の利点がある傾向があります... AICは漸近的です最適... BICは漸近的に最適ではありません... AICが最適に収束する速度は...可能な限り最高です。 AIC トークセクションでは、BICセクションとの比較の偏った表示について多くのコメントがあります。イライラしたある寄稿者は、記事全体が「タバコのコマーシャルのように読める」と抗議しました。 他の情報源、たとえばこの論文の付録では、AICのクレームのテノールがより現実的に見えます。したがって、コミュニティへのサービスとして、以下をお願いします。 Q:BICが有効でAICが役に立たない状況はありますか?

2
2変量正規分布のJensen-Shannon発散
2つの二変量正規分布とられた場合、それらの間のJensen-Shannon発散を計算しようとしています、として次のように定義されます( ここでKLDはカルバックライブラーダイバージェンスです) 、およびM = \ frac {1} {2}(P + Q)分布のパラメーター、したがってJSDに関してKLD を計算する方法を見つけました。 J S D (P ‖ Q )= 1P≡N(μp,Σp)P≡N(μp,Σp)P \equiv \mathcal{N}(\mu_p, \Sigma_p)Q≡N(μq,Σq)Q≡N(μq,Σq)Q \equiv \mathcal{N}(\mu_q, \Sigma_q)JSD(P∥Q)=12(KLD(P∥M)+KLD(Q∥M))JSD(P‖Q)=12(KLD(P‖M)+KLD(Q‖M))JSD(P\|Q) = \frac{1}{2} (KLD(P\|M)+ KLD(Q\|M))KLDKLDKLDM=12(P+Q)M=12(P+Q)M=\frac{1}{2}(P+Q)KLDKLDKLDJSDJSDJSD 私の疑問は: Mを計算するにMMMは、M≡N(12(μp+μq),12(Σp+Σq))M≡N(12(μp+μq),12(Σp+Σq))M \equiv \mathcal{N}(\frac{1}{2}(\mu_p + \mu_q), \frac{1}{2}(\Sigma_p + \Sigma_q))。これは正しいですか? [ 1 ]でJSDJSDJSDが制限されていることを読みましたが、正規分布について上記で説明したように計算すると、そのようには見えません。それは私がそれを間違って計算している、仮定に違反している、または私が理解できない何かを意味しているのですか?

2
連続分布のエントロピーの解釈?
「エントロピー」は、確率分布の「情報」の程度を大まかに捉えたものです。 離散分布の場合、より正確な解釈があります。離散確率変数のエントロピーは、確率変数の結果を転送するために必要な予想ビット数の下限です。 しかし、連続確率変数の場合、結果の数は無数にあります。そのため、ビットの有限文字列で発生した正確な結果を転送し始めることさえできません。 連続変数のエントロピーの同等の解釈は何ですか?

1
ディープラーニングを理解するための情報ボトルネック原則の価値について、現在コンセンサスはありますか?
TishbyとZaslavskyは2015年に、いわゆる情報ボトルネック原理を使用してディープニューラルネットワークのいくつかの動作を理解できると主張する有名な論文を発表しました。で(2017年4月)より最近の論文、シュワルツ-Ziv符号とTishbyは特に結果の一部を可視化する、これらの請求に展開します。 2017年の後半に、Saxeらの批評論文。OpenReviewのWebサイトに投稿されました(最近の改訂は2週​​間前)。Schwartz-Ziv-Tishbyの論文で出された主張の多くは支持されない、または少なくとも主張されている一般性ではないと主張している。実際、私がそれらを正しく読んでいる場合、視覚化された結果は活性化機能の選択のアーチファクトであると彼らは主張します-理論によれば重要ではない何か。 しかし、コメントの中で、シュワルツ-ジブとティシュビーは批評が的を外していると批判的な論文に関するコメントの長いリストを見せてくれます。これに批判的な論文の著者が順番に答えますが、おそらく会話はまだ終わっていません。 情報のボトルネックの深層学習の側面についての調査プロジェクトを開始することに関心がありますが、すでに「反駁されている」ことを学ぶのに時間を浪費するのではないかと心配しています。したがって、私の質問は次のとおりです。 ディープラーニングを理解するための情報ボトルネック原理の適用性に関する現在の専門家の意見は何ですか? 特に、私がリンクしたもの以外のテーマの研究、および専門家による(直接的または間接的な)解説に興味があります。

1
均一な部分分布を持つ分布のエントロピー
LETセット内の値を取る確率変数である。の分布は均一ではありませんが、「均一」なサブセットありますすべてのイベントは等しい確率で発生します。バツXXバツX\mathcal{X}バツXXA ∈ XA∈XA\in\mathcal{X}あAA のエントロピーをセットサイズに関連付けることはできますか?直感的には、のエントロピーは少なくともであると言えるはずです、しかしそれを証明する方法がわかりません。バツXXあAAバツXXログ| A |log⁡|A|\log |A| 例えば、上に分布均一であり、そして結合は自明成り立ちます。A = XA=XA = \mathcal{X}バツXX
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.