タグ付けされた質問 「information-theory」

通信に使用されるものでも、抽象的な意味で定義されるものでも、チャネルの情報伝達容量を決定するために使用される数学/統計のブランチ。エントロピーは、情報理論家が確率変数の予測に伴う不確実性を定量化するための手段の1つです。

3
モデルの赤池情報量基準(AIC)スコアはどういう意味ですか?
私はここで素人の言葉で何を意味するかについていくつかの質問を見てきましたが、これらはここでの私の目的にはあまりにも素人です。AICスコアの意味を数学的に理解しようとしています。 しかし同時に、より重要なポイントを見ないようにする厳密な証拠は必要ありません。たとえば、これが微積分であれば、私は無限小に満足し、これが確率論であれば、測定理論なしに満足します。 私の試み ここを読んで、自分自身のいくつかの表記シュガー、は、次のようにデータセットD上のモデル AIC基準です: \ text {AIC} _ {m、D} = 2k_m- 2 \ ln(L_ {m、D}) ここで、k_mはモデルmのパラメーターの数、L_ {m、D}はデータセットDのモデルmの最尤関数値です。 m D AIC m 、D = 2 k m − 2 ln (L m 、D)k m m L m 、D m DAICm,DAICm,D\text{AIC}_{m,D}mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD 上記が意味するものの私の理解はここにあります: m=arg maxθPr(D|θ)m=arg …


5
情報獲得、相互情報および関連する措置
アンドリューモア は、情報ゲインを次のように定義しています。 私G (Y| バツ)= H(Y)− H(Y| バツ)私G(Y|バツ)=H(Y)−H(Y|バツ)IG(Y|X) = H(Y) - H(Y|X) ここで、は条件付きエントロピーです。ただし、ウィキペディアは上記の量の相互情報を呼び出します。H(Y| バツ)H(Y|バツ)H(Y|X) 一方、ウィキペディアは、情報ゲインを、2つのランダム変数間のカルバック-ライブラー発散(別名情報発散または相対エントロピー)として定義します。 DKL(P| | Q)=H(P、Q )− H(P)DKL(P||Q)=H(P、Q)−H(P)D_{KL}(P||Q) = H(P,Q) - H(P) ここで、はクロスエントロピーとして定義されます。H(P、Q )H(P、Q)H(P,Q) これら2つの定義は互いに矛盾しているようです。 また、他の著者が、2つの追加の関連概念、すなわち微分エントロピーと相対情報ゲインについて話しているのを見ました。 これらの数量間の正確な定義または関係は何ですか?それらすべてを網羅した優れたテキスト本はありますか? 情報獲得 相互情報 クロスエントロピー 条件付きエントロピー 微分エントロピー 相対情報ゲイン

4
2つの共分散行列間の類似性または距離の測定
2つの対称共分散行列(どちらも同じ次元)の間に類似性または距離の尺度はありますか? ここでは、2つの確率分布のKL発散や、マトリックスに適用されないベクトル間のユークリッド距離の類似物を考えています。かなりの数の類似性測定があると思います。 理想的には、2つの共分散行列が同一であるという帰無仮説もテストしたいと思います。

3
情報理論のないカルバック・ライブラーの発散
Cross Validatedを何度も探した後、私はまだ情報理論の領域外でKLの発散を理解することに近づいているとは感じていません。数学のバックグラウンドを持つ人が情報理論の説明をはるかに理解しやすいと感じるのは、かなり奇妙です。 情報理論の背景から私の理解を概説するために:有限数の結果を持つランダム変数がある場合、平均して最短のメッセージで他の誰かと結果を伝えることができる最適なエンコーディングが存在しますビット単位の画像)。結果を伝えるために必要なメッセージの予想される長さは、最適なエンコーディングが使用されている場合、で与えられます。最適以下のエンコーディングを使用する場合、KLダイバージェンスは、平均してメッセージの長さを示します。−∑αpαlog2(pα)−∑αpαlog2⁡(pα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) この説明は、KL発散の非対称性を非常に直感的に扱っているため、気に入っています。2つの異なるシステム、つまり異なる方法でロードされた2つのロードされたコインがある場合、それらは異なる最適なエンコーディングを持ちます。2番目のシステムのエンコーディングを1番目のシステムに使用することは、1番目のシステムのエンコーディングを2番目に使用することと「同等に悪い」とは思わず感じます。どうやって自分を納得させるかという思考プロセスを経ることなく、私はは、のエンコーディングを使用するときに、この「余分なメッセージの長さ」を与えます。∑αpα(log2qα−log2pα)∑αpα(log2⁡qα−log2⁡pα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})qqqppp ただし、ウィキペディアを含むKL発散のほとんどの定義は、2つの離散確率がある場合、(ビットが離散であるため離散用語ではるかにうまく機能する情報理論の解釈と比較できるように、これを離散用語で保持します)分布の場合、KLは「それらの違い」のメトリックを提供します。これらの2つの概念がどのように関連しているのかについての説明はまだありません。私は彼の推論に関する本で覚えているようです、デイブ・マッケイはデータ圧縮と推論が基本的に同じことである点について指摘しており、私の質問はこれに本当に関連していると思います。 それがそうであるかそうでないかにかかわらず、私が念頭に置いているのは、推論の問題に関する質問です。(物事を個別に保つ)、2つの放射性サンプルがあり、そのうちの1つが既知の放射能を持つ特定の物質であることがわかっている場合(これは疑わしい物理学ですが、宇宙がそのように動作するふりをしましょう)、したがって、「真の」分布を知っています測定すべき放射性クリックの既知の持つポアソニアンである必要があります。両方のサンプルの経験的分布を構築し、それらのKL発散を既知の分布と比較し、低い方がその材料である可能性が高いと言いますか?λλ\lambda 疑わしい物理学から離れて、同じ分布から2つのサンプルが取り出されていることを知っているが、それらがランダムに選択されていないことがわかっている場合、KLの発散を既知のグローバル分布と比較すると、サンプルがどのようにバイアスされているかの感覚が得られますとにかく他と比較して? 最後に、前の質問に対する答えが「はい」の場合、なぜですか?これらのことを、情報理論への(おそらくは希薄な)つながりを作らずに、統計的な観点だけから理解することは可能ですか?

3
最大エントロピー分布の統計的解釈
最大エントロピーの原理を使用して、さまざまな設定でいくつかの分布を使用することを正当化しました。ただし、最大エントロピーの情報理論的な解釈とは対照的に、統計を定式化することはまだできていません。言い換えると、エントロピーを最大化すると、分布の統計的特性について何が示唆されるのでしょうか? 誰かに出くわしたり、最大の統計的解釈を自分自身で発見したりしました。情報には訴えず、確率論的な概念にのみ訴えるエントロピー分布? そのような解釈の例として(必ずしも真とは限らない):「RVのドメイン上の任意の長さLの間隔(単純化のために1-d連続と仮定)では、この間隔に含まれる最大確率は最小化されます。最大エントロピー分布による。」 したがって、「情報量」やその他のより哲学的なアイデアについての話はなく、確率的な意味合いだけがあります。

2
GINIスコアと対数尤度比の関係は何ですか
私は分類木と回帰木を研究していますが、分割された場所の尺度の1つはGINIスコアです。 今では、2つの分布間の同じデータの尤度比のログがゼロである場合に、最適な分割位置を決定することに慣れています。 私の直感では、何らかの接続が必要であり、GINIは情報の数学的理論(シャノン)に優れた基礎を持たなければならないが、私はGINIを自分で理解するのに十分に理解していないと言います。 質問: 分割の尺度としてのGINI不純物スコアの「第一原理」導出とは何ですか? GINIスコアは、尤度比のログまたは他の情報理論的基礎にどのように関係しますか(シャノンエントロピー、pdf、およびクロスエントロピーはそれらの一部です)? 参照: 加重Gini基準はどのように定義されていますか? 分類および回帰木の背後にある数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (追加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity シャノンのエントロピーは次のように説明されます。 H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) これを多変量のケースに拡張すると、次のようになります。 H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件付きエントロピーは次のように定義されます。 H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(バツ|Y)=Σyp(バツ、y)ログb⁡p(バツ)p(バツ、y)または、H(バツ|Y)=H(バツ、Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
非線形相関を検出するためのMICアルゴリズムは直感的に説明できますか?
最近では、2つの記事を読みました。1つ目は相関の履歴に関するもので、2つ目は最大情報係数(MIC)と呼ばれる新しい方法に関するものです。変数間の非線形相関を推定するMICメソッドを理解することに関して、あなたの助けが必要です。 さらに、Rでの使用方法については、著者のWebサイト(ダウンロード)で確認できます。 これがこの方法を議論し理解するための良いプラットフォームになることを願っています。この方法の背後にある直感と、著者が述べたようにどのように拡張できるかを議論することへの私の関心。 " ... MIC(X、Y)からMIC(X、Y | Z)への拡張が必要です。MICの安定した推定値を得るために必要なデータの量、外れ値に対する影響の程度、3 -またはそれは欠場する高次元の関係、そしてより多くのMICは大きな前進ですが、取るために、より多くのステップがあります。」

2
経験的エントロピーとは何ですか?
共同で典型的な集合の定義(「情報理論の要素」、ch。7.6、p。195)では、 として経験的エントロピーのn個と-sequenceP(XのN)=Π N iは= 1つの Pを(XI)。これまでこの用語に出会ったことはありません。本のインデックスに従ってどこでも明示的に定義されていません。−1nlogp(xn)−1nlog⁡p(xn)-\frac{1}{n} \log{p(x^n)}nnnp(xn)=∏ni=1p(xi)p(xn)=∏i=1np(xi)p(x^n) = \prod_{i=1}^{n}{p(x_i)} 私の質問は基本的には次のとおりです。なぜ経験的エントロピーはない場所P(X )で経験分布?−∑xp^(x)log(p^(x))−∑xp^(x)log⁡(p^(x))-\sum_{x}{\hat p (x) \log(\hat p(x))}p^(x)p^(x)\hat p(x) これら2つの式の最も興味深い違いと類似点は何ですか?(共有する/しないプロパティの観点から)。

3
カルバック・ライブラーの発散の分析
次の2つの確率分布を考えてみましょう P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 0.4928202580.4928202580.492820258に等しいKullback -Leibler発散を計算しましたが、この数値が何を示しているかを一般的に知りたいですか?一般に、Kullback-Leiblerの発散は、ある確率分布が別の確率分布からどれだけ離れているかを示しています。エントロピーの用語に似ていますが、数字の面ではどういう意味ですか?結果が0.49の場合、およそ1つの分布が別の分布から50%離れていると言えますか?

2
点ごとの相互情報の境界が与えられた相互情報の境界
2つのセットとあり、これらのセット同時確率分布があるとします。ましょう及び上に周辺分布示すおよびそれぞれ。Y p (x 、y )p (x )p (y )X YXXXYYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY と間の相互情報は次のように定義されます: Y I (X ; Y )= Σ X 、Y P (X 、Y )⋅ ログ(P (X 、Y )XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) すなわち、点ごとの相互情報pmiの平均値です。(x,y)≡log(p(x,y)p(x)p(y))(x,y)≡log⁡(p(x,y)p(x)p(y))(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right) pmi上限と下限を知っていると仮定します。つまり、すべての次のことが成り立つことを知っています。- のX 、Y - K ≤ ログ(P (X 、Y )(x,y)(x,y)(x,y)x,yx,yx,y−k≤log(p(x,y)p(x)p(y))≤k−k≤log⁡(p(x,y)p(x)p(y))≤k-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k 何の上限は、これは上の意味するものではありません。もちろん、これは意味しが、可能であれば、より厳密な範囲が必要です。pは確率分布を定義し、pmiはおよびすべての値に対して最大値を取ることができない(または負でないことさえある)ため、これは私にはもっともらしいようです。I (X …

1
なぜKLの発散が負でないのですか?
なぜKLの発散は非負ですか? 情報理論の観点から、私はそのような直感的な理解を持っています: xでラベル付けされた同じ要素セットで構成される2つの集団とBがあるとします。p (x )およびq (x )は、それぞれ集団AおよびBの異なる確率分布です。AAABBBxxxp(x)p(x)p(x)q(x)q(x)q(x)AAABBB 情報理論の観点から、は、アンサンブルAの要素xを記録するために必要なビットの最小量です。その結果、期待 Σ X ∈ E N S Eのm個のBのL個のE - Plog2(P(x))log2⁡(P(x))\log_{2}(P(x))xxxAAA 我々は要素記録する必要があることをどのように多くのビットを少なくともとして解釈することができる Aを平均。∑x∈ensemble−p(x)ln(p(x))∑x∈ensemble−p(x)ln⁡(p(x))\sum_{x \in ensemble}-p(x)\ln(p(x))AAA この式は平均的に必要なビットに下限を設定するため、異なる確率分布q (x )をもたらす異なるアンサンブルに対して、各要素xに与える境界は確実にビット化されません与えられるP (X )、その期待値をとる手段、Σ X ∈ E N S Eのm個のBのL個のE - P (X )LN (Q (X ))BBBq(x)q(x)q(x)xxxp(x)p(x)p(x) ∑x∈ensemble−p(x)ln(q(x))∑x∈ensemble−p(x)ln⁡(q(x))\sum_{x\in ensemble}-p(x)\ln(q(x)) この平均長さが確実に前者につながるよりも大きくなる p(x)とq(x)が異なるため、ここに は≥を入れません。∑x∈ensemblep(x)ln(p(x))ln(q(x))>0∑x∈ensemblep(x)ln⁡(p(x))ln⁡(q(x))>0\sum_{x\in ensemble }p(x)\frac{\ln(p(x))}{\ln(q(x))} > 0≥≥\gep(x)p(x)p(x)q(x)q(x)q(x) これは私の直感的な理解ですが、KLの発散が非負であることを証明する純粋に数学的な方法はありますか?問題は次のように説明できます。 所与及びQ …

2
Rで「手動」でAICを計算する
私はRの線形回帰のAICを計算しようとしましたが、次のAICように関数を使用しませんでした: lm_mtcars <- lm(mpg ~ drat, mtcars) nrow(mtcars)*(log((sum(lm_mtcars$residuals^2)/nrow(mtcars))))+(length(lm_mtcars$coefficients)*2) [1] 97.98786 ただし、AIC異なる値を指定します。 AIC(lm_mtcars) [1] 190.7999 誰かが私が間違っていることを教えてもらえますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.