タグ付けされた質問 「entropy」

確率変数のランダム性の量を測定するために設計された数学的な量。

3
情報エントロピーが1を超えるのはなぜですか?
エントロピーを計算するために、次の関数を実装しました。 from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum 結果: >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats import entropy # using a built-in package # give the same answer >>> entropy([1/7.0, …

4
同じ試験を最短で受けることにより、すべての回答を正解する
雨は勉強しないので、はい/いいえの質問のみで構成されていても、中期には完全に無知です。幸い、Rainの教授は彼女が好きなだけ何度でも同じ中間学期を再受験することを許可していますが、彼はスコアを報告するだけなので、Rainは彼女が間違った問題を知りません。Rainは、最低限の回数の再受験ですべての正解を得るにはどうすればよいですか? より正式に言えば、試験の合計は nnn はい/いいえの質問、その正解は X1,X2,…,Xn∼iidBernoulli(0.5)X1,X2,…,Xn∼iidBernoulli(0.5)X_1, X_2, \dots, X_n \stackrel{iid}{\sim} \text{Bernoulli}(0.5)。Rainが再受験する必要があると予想される回数を最小限に抑える戦略を見つけたいです。 しばらく考えていました。レインが初めて中期を取るとき、彼女のスコアは常にBinom(n,0.5)Binom(n,0.5)\text{Binom}(n, 0.5)、彼女の答えに関係なく、各戦略は同じ量のエントロピーを減少させます。しかし、これが何を意味するのかはわかりません。ランダムな推測がすべて「はい」またはすべて「いいえ」で答えるのと同じくらい良いということですか? これは宿題ではありませんが、次の研究プロジェクトをベースに計画しているので、 本格的な答えの代わりにいくつかのヒントを提供してください。 この質問にすでに回答している場合は、ポインタを教えてください。


2
時系列の予測可能性を判断する方法は?
予測者が直面している重要な問題の1つは、特定の系列 を予測できるかどうかです。 Peter Cattによる「予測可能性の先験的指標としてのエントロピー」というタイトルの記事を偶然見つけました。この記事では、近似エントロピー(ApEn)を使用して 、所定の時系列を予測できる相対的な指標を決定しています。 記事は言う、 「ApEn値が小さいほど、一連のデータの後に類似データが続く可能性が高いことを示します(規則性)。逆に、ApEnの値が大きいほど、類似データが繰り返される可能性が低いことを示します(不規則性)。したがって、値が大きいほど、不規則性が高くなります。 、ランダム性、システムの複雑さ。」 そして、ApEnを計算するための数式が続きます。これは、相対的な意味で予測可能性を評価するために使用できる数値を提供するため、興味深いアプローチです。近似エントロピーの意味がわかりません。詳しく読んでいます。 呼ばれるパッケージがありpracmaにRそれはあなたがAPENを計算することができますが。説明のために、3つの異なる時系列を使用してApEn数を計算しました。 シリーズ1:有名なAirPassenger時系列-非常に確定的であり、簡単に予測できるはずです。 系列2:太陽黒点の時系列-非常に明確に定義されていますが、系列1よりも予測しにくいはずです。 シリーズ3:乱数このシリーズを予測する方法はありません。 したがって、ApEnを計算する場合、シリーズ1はシリーズ2よりも少なく、シリーズ3は非常に少ないはずです。 以下は、3つのシリーズすべてのApEnを計算するRスニペットです。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 これは私が期待したものではありません。ランダムシリーズは、明確に定義されたAirPassengerシリーズよりも数が少ないです。乱数を100に増やしても、明確に定義されたシリーズ2 / Sunspot.yealryシリーズよりも少ない次の結果が得られます。 > series3 <- approx_entropy(rnorm(1:100)) > series3 [1] …


2
多項ロジスティック損失vs(クロスエントロピーvs二乗誤差)
Caffe(ディープラーニングフレームワーク)がほとんどのモデルサンプルの出力層としてSoftmax Loss Layer SoftmaxWithLossを使用していることを確認しました。 私の知る限り、Softmax損失層は、多項ロジスティック損失層とSoftmax層の組み合わせです。 カフェから、彼らはそれを言った Softmax Loss Layerの勾配計算は、数値的に安定しています。 ただし、この説明は私が望む答えではありません。説明は、レイヤーごとではなく、多項ロジスティック損失レイヤーとソフトマックス損失レイヤーの組み合わせを比較するだけです。しかし、他のタイプの損失関数と比較しないでください。 しかし、教師付き学習の観点から、これらの3つのエラー関数である多項ロジスティック損失、クロスエントロピー(CE)、二乗誤差(SE)の違い/利点/欠点は何ですか?支持記事はありますか?

2
log(p(x、y))はどのようにして点ごとの相互情報を正規化しますか?
私は点ごとの相互情報の正規化された形式を理解しようとしています。 npmi=pmi(x,y)log(p(x,y))npmi=pmi(x,y)log(p(x,y))npmi = \frac{pmi(x,y)}{log(p(x,y))} なぜ対数結合確率は、点ごとの相互情報を[-1、1]の間に正規化するのですか? ポイントごとの相互情報は次のとおりです。 pmi=log(p(x,y)p(x)p(y))pmi=log(p(x,y)p(x)p(y))pmi = log(\frac{p(x,y)}{p(x)p(y)}) p(x、y)は[0、1]によって制限されるため、log(p(x、y))は(、0]によって制限されます。log(p(x、y))は、分子ですが、正確にはわかりません。また、エントロピー思い出しますが、正確な関係はわかりません。h=−log(p(x))h=−log(p(x))h=-log(p(x))

1
短い質問:なぜこれが本当なのですか? 長い質問: 非常に単純に、私はこの最初の方程式を正当化するものを理解しようとしています。私が読んでいる本の著者(必要な場合はここに示しますが、必須ではありません)は次のように主張しています。 ガウスに近いという仮定のため、次のように書くことができます。 p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ))p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ)) p_0(\xi) = A \; \phi(\xi) \; exp( a_{n+1}\xi + (a_{n+2} + \frac{1}{2})\xi^2 + \sum_{i=1}^{n} a_i G_i(\xi)) ここで、p0(ξ)p0(ξ)p_0(\xi)は、一連の期待値(単純な数)のみを観察した場合に、最大エントロピーを持つ観察データのPDFです。。。nci,i=1...nci,i=1...nc_i, i = 1 ... n、ここでci=E{Gi(ξ)}ci=E{Gi(ξ)}c_i = \mathbb{E}\{G_i(\xi)\}、およびϕ(ξ)ϕ(ξ)\phi(\xi)は、標準化されたガウス変数、つまり平均0、単位分散のPDFです。 このすべてが起こっているのは、PDF、単純化するための出発点として上記の方程式を使用することであり、私は彼がどのようにそれを行うかを取得しますが、私は彼が上記の方程式を正当化する方法を取得しません。出発点。p0(ξ)p0(ξ)p_0(\xi) 私は、誰も難読化しないように簡潔にするよう努めましたが、詳細が必要な場合はコメントでお知らせください。ありがとう!

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
xスケールは同じであるがRのyスケールが異なる2つのグラフを垂直に積み重ねるにはどうすればよいですか?
ご挨拶、 現在、私はRで次のことをしています: require(zoo) data <- read.csv(file="summary.csv",sep=",",head=TRUE) cum = zoo(data$dcomp, as.Date(data$date)) data = zoo(data$compressed, as.Date(data$date)) data <- aggregate(data, identity, tail, 1) cum <- aggregate(cum, identity, sum, 1) days = seq(start(data), end(data), "day") data2 = na.locf(merge(data, zoo(,days))) plot(data2,xlab='',ylab='compressed bytes',col=rgb(0.18,0.34,0.55)) lines(cum,type="h",col=rgb(0,0.5,0)) summary.csvの一部: date,revision,file,lines,nclass,nattr,nrel,bytes,compressed,diff,dcomp 2007-07-25,16,model.xml,96,11,22,5,4035,991,0,0 2007-07-27,17,model.xml,115,16,26,6,4740,1056,53,777 2007-08-09,18,model.xml,106,16,26,7,4966,1136,47,761 2007-08-10,19,model.xml,106,16,26,7,4968,1150,4,202 2007-09-06,81,model.xml,111,16,26,7,5110,1167,13,258 ... 最後の2行は必要な情報をプロットしており、結果は次のようになります。 青い線は、関心のあるアーティファクトのバイト単位のエントロピーです。緑の線は、変化のエントロピーを表します。 さて、このグラフでは、スケールに大きな違いがないため、うまく機能します。しかし、緑の線が非常に小さくなって見えなくなる他のグラフがあります。 私が探していたソリューションには、次の2つのことが含まれていました。 …

1
エントロピーと圧縮/暗号化データのバイト分布の比較
しばらくの間、自分自身を占める質問があります。 暗号化されたデータを識別するために、エントロピーテストがよく使用されます。分析されたデータのバイトが均一に分散されると、エントロピーが最大になります。エントロピーテストは、暗号化されたデータを識別します。これは、このデータが、エントロピーテストの使用時に暗号化されたものとして分類される圧縮データのように均一な分布を持っているためです。 例:一部のJPGファイルのエントロピーは7,9961532ビット/バイト、一部のTrueCryptコンテナーのエントロピーは7,9998857です。つまり、エントロピーテストでは、暗号化されたデータと圧縮されたデータの違いを検出できません。しかし、最初の写真でわかるように、JPGファイルのバイトは均一に分散されていません(少なくとも、truecrypt-containerからのバイトほど均一ではありません)。 別のテストは、周波数分析です。各バイトの分布が測定され、たとえば、分布を仮説の分布と比較するためにカイ2乗検定が実行されます。その結果、p値が得られます。JPGとTrueCrypt-dataでこのテストを実行すると、結果が異なります。 JPGファイルのp値は0です。これは、統計ビューからの分布が均一でないことを意味します。TrueCryptファイルのp値は0,95です。これは、分布がほぼ完全に均一であることを意味します。 私の質問:エントロピーテストでこのような誤検知が発生する理由を誰かに教えてもらえますか?情報の内容が表現されている単位のスケール(ビット/バイト)ですか?より細かいスケールのため、例えばp値はより良い「単位」ですか? 回答/アイデアをありがとうございました! JPG-Image TrueCrypt-Container

2
連続分布のエントロピーの解釈?
「エントロピー」は、確率分布の「情報」の程度を大まかに捉えたものです。 離散分布の場合、より正確な解釈があります。離散確率変数のエントロピーは、確率変数の結果を転送するために必要な予想ビット数の下限です。 しかし、連続確率変数の場合、結果の数は無数にあります。そのため、ビットの有限文字列で発生した正確な結果を転送し始めることさえできません。 連続変数のエントロピーの同等の解釈は何ですか?


1
均一な部分分布を持つ分布のエントロピー
LETセット内の値を取る確率変数である。の分布は均一ではありませんが、「均一」なサブセットありますすべてのイベントは等しい確率で発生します。バツXXバツX\mathcal{X}バツXXA ∈ XA∈XA\in\mathcal{X}あAA のエントロピーをセットサイズに関連付けることはできますか?直感的には、のエントロピーは少なくともであると言えるはずです、しかしそれを証明する方法がわかりません。バツXXあAAバツXXログ| A |log⁡|A|\log |A| 例えば、上に分布均一であり、そして結合は自明成り立ちます。A = XA=XA = \mathcal{X}バツXX

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.