タグ付けされた質問 「entropy」

確率変数のランダム性の量を測定するために設計された数学的な量。

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

3
「クロスエントロピー」の定義と起源
ソースを引用せずに、ウィキペディアは離散分布とQのクロスエントロピーを次のように定義します。PPPQQQ H×(P;Q)=−∑xp(x)logq(x).H×(P;Q)=−∑xp(x)log⁡q(x).\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align} この数量の使用を開始したのは誰ですか?そして、この用語を発明したのは誰ですか?私が見た: JE ShoreおよびRW Johnson、「最大エントロピーの原理と最小クロスエントロピーの原理の公理的導出」、情報理論、IEEE Transactions on、vol。26、いいえ。1、pp。26-37、1980年1月。 私は彼らの紹介に従いました A. Wehrl、「エントロピーの一般的な特性」、Modern Physics、vol。50、いいえ。2、pp。221-260、1978年4月。 誰もこの用語を使用しません。 どちらもしない S.カルバックとR.ライブラー、「情報と十分性について」、The Annals of Mathematical Statistics、vol。22、いいえ。1、pp。79-86、1951。 私は見た TM CoverおよびJA Thomas、情報理論の要素(電気通信および信号処理のWileyシリーズ)。Wiley-Interscience、2006年。 そして I.グッド、「仮説の定式化、特に多次元分割表の最大エントロピー」、The Annals of Mathematical Statistics、vol。34、いいえ。3、pp。911-934、1963。 しかし、どちらの論文も、クロスエントロピーをKL発散と同義であると定義しています。 元の紙 CEシャノン、「コミュニケーションの数学理論」、ベルシステム技術ジャーナル、vol。27、1948。 クロスエントロピーについては言及していません(また、「相対エントロピー」の奇妙な定義があります:「ソースのエントロピーと、同じシンボルに制限されている場合の最大値との比」)。 最後に、私はTribusの古い本や論文をいくつか見ました。 上記の方程式が何と呼ばれているのか、誰がそれを発明したのか、またはそれについて素晴らしいプレゼンテーションを持っているのか誰もが知っていますか?

1
クラスタリング:Jensen-Shannon Divergenceまたはその正方形を使用する必要がありますか?
Affinity Propagationアルゴリズムを使用して確率分布をクラスタリングしており、距離メトリックとしてJensen-Shannon Divergenceを使用する予定です。 JSD自体を距離として使用するのは正しいですか、それともJSDの2乗ですか?どうして?どちらを選択するとどのような違いが生じますか?

1
定性的にクロスエントロピーとは
この質問は、その式の観点からクロスエントロピーの定量的な定義を提供します。 より概念的な定義を探しています、ウィキペディアは言います: 情報理論では、「真の」分布pではなく、特定の確率分布qに基づいてコーディングスキームが使用される場合、 2つの確率分布間のクロスエントロピーは、可能性のセットからイベントを識別するために必要な平均ビット数を測定します。 これを理解するのに苦労している部分を強調しました。Entropyの個別の(既存の)理解を必要としない素晴らしい定義が欲しい。

4
典型的なセットコンセプト
典型的なセットの概念は非常に直感的だと思いました:シーケンスが出る確率が高い場合、長さシーケンスは典型的なセット属します。そのため、可能性が高いシーケンスはます。(定性的に理解しようとしているため、エントロピーに関連する正式な定義を避けています。)nnnA(n )ϵAϵ(n)A_\epsilon ^{(n)}A(n )ϵAϵ(n)A_\epsilon ^{(n)} ただし、一般的に、最も可能性の高いシーケンスは典型的なセットに属していません。これは私に大きな時間を混乱させました。 典型的なセットの直感的な定義はありますか?それとも、常識とはあまり関係のない数学的なツールですか?

1
相互情報行列の固有ベクトルの意味は何ですか?
共分散行列の固有ベクトルを見ると、最大分散の方向を取得します(最初の固有ベクトルは、データが最も大きく変化する方向などです)。これは、主成分分析(PCA)と呼ばれます。 相互情報行列の固有ベクトル/値を見るとどういう意味になるのだろうか、最大エントロピーの方向を指すのだろうか?

1
微分エントロピーの解釈方法は?
最近、離散確率分布のエントロピーに関するこの記事を読みました。使用する単語の確率分布を考慮して、エンコードが最適な場合にメッセージをエンコードするのに必要な予想ビット数(少なくともエントロピー定義でを使用する場合)としてエントロピーについての素晴らしい考え方を説明します。log2log2\log_2 以下のような連続した場合に拡張するときしかし、ここで私は以来、ダウン休憩をこの考え方を信じるのために任意の連続確率分布P (X )私がいた(それが間違っている場合は、私を修正してください)、ので、離散的な場合のように、連続エントロピーの意味について良い考えがあるかどうか疑問に思います。∑xp(x)=∞∑xp(x)=∞\sum_x p(x) = \inftyp(x)p(x)p(x)



1
ネゲントロピーの導出。はまる
そのため、この質問は多少複雑ですが、できる限り簡単になるように心がけました。 目標:長い話を簡単に言えば、高次のキュムラントを含まない負のエントロピーの導出があり、それがどのように導出されたかを理解しようとしています。 背景:(これはすべて理解しています) ここにある「独立成分分析」という本を自習しています。(この質問は、「非多項式関数によるエントロピーの近似」という本がある場合は、セクション5.6からのものです)。 我々は持っているバツバツxランダム変数であり、そしてそのネゲントロピー我々は我々が持っているいくつかの観測から、推定したいです。のPDFはp x(ζ )でバツバツx与えられます。ネゲントロピーは、標準化されたガウス確率変数の微分エントロピーとxの微分エントロピーの差です。ここでの微分エントロピーは、次のようにHによって与えられます。pバツ(ζ)pバツ(ζ)p_x(\zeta)バツバツxHHH H(X )= - ∫∞- ∞pバツ(ζ)L O G(pバツ(ζ))dζH(バツ)=−∫−∞∞pバツ(ζ)log(pバツ(ζ))dζ H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta そのため、負のエントロピーは J(x )= H(v )− H(x )J(バツ)=H(v)−H(バツ)J(x) = H(v) - H(x) ここでvvvは標準化されたガウスrvであり、PDFは与えられϕ (ζ)ϕ(ζ)\phi(\zeta)ます。 さて、この新しい方法の一部として、私の本はのPDFの推定値を導き出しましたバツバツx。 pバツ(ζ)= ϕ (ζ)[ 1 + ∑私c私F私(ζ)]pバツ(ζ)=ϕ(ζ)[1+∑私c私F私(ζ)] p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; …


1
エントロピーは場所と規模にどのように依存しますか?
密度関数連続分布のエントロピーは、期待値の負になるように定義されているため、等しいffflog(f),log⁡(f),\log(f), Hf=−∫∞−∞log(f(x))f(x)dx.Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. また、分布が密度ランダム変数はエントロピーがあると言います (この積分は、がゼロの場合でも明確に定義され。なぜなら、はそのような値でゼロに等しくなることができるからです。)XXXfffHf.Hf.H_f.ffflog(f(x))f(x)log⁡(f(x))f(x)\log(f(x))f(x) 場合及びランダム変数である(一定である)、のバージョンであると言われているだけシフト 同様に、(は正の定数)の場合、Yは\ sigmaでスケーリングされたXのバージョンと言われます。スケールとシフトを組み合わせると、Y = X \ sigma + \ muになります。XXXYYYY=X+μY=X+μY = X+\muμμ\muYYYXXX μ.μ.\mu.Y=XσY=XσY = X\sigmaσσ\sigmaYYYXXX σ.σ.\sigma.Y=Xσ+μ.Y=Xσ+μ.Y=X\sigma + \mu. これらの関係は頻繁に発生します。たとえば、XXXの測定単位を変更すると、Xがシフトおよびスケーリングされます。 Y=Xσ+μY=Xσ+μY = X\sigma + \muのエントロピーはXのエントロピーとどのように関連していX?X?X?

1
微分エントロピー
ガウスRVの差動エントロピーがあるlog2(σ2πe−−−√)log2⁡(σ2πe)\log_2(\sigma \sqrt{2\pi e})。これは、標準偏差であるσσ\sigmaに依存します。 ランダム変数を正規化して単位分散を持たせると、差分エントロピーが低下します。コルモゴロフの正規化定数の複雑さはエントロピーの減少と比較して非常に小さいはずなので、私にとってこれは直感に反します。このランダム変数によって生成されたデータセットを復元するために、正規化定数で除算/倍数するエンコーダーデコーダーを簡単に考案できます。 おそらく私の理解は外れています。私の欠陥を指摘してもらえますか?

5
回帰のコンテキストでは、クロスエントロピーコストは意味がありますか?
クロスエントロピーコストは、(分類ではなく)回帰のコンテキストで意味がありますか?もしそうなら、TensorFlowを通じておもちゃの例を挙げていただけますか?そうでない場合、なぜでしょうか? 私はマイケルニールセンによるニューラルネットワークとディープラーニングのクロスエントロピーについて読んでいましたが、それは回帰や分類に自然に使用できるもののようですが、TensorFlowでそれを効率的に適用する方法がわからないので、損失関数はロジットを取り(私もどちらも理解していません)、ここで分類の下にリストされています

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.