統計とビッグデータ entropy

3

エントロピーを計算するために、次の関数を実装しました。 from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum 結果： >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats import entropy # using a built-in package # give the same answer >>> entropy([1/7.0, …

11 mathematical-statistics python entropy

4

同じ試験を最短で受けることにより、すべての回答を正解する

雨は勉強しないので、はい/いいえの質問のみで構成されていても、中期には完全に無知です。幸い、Rainの教授は彼女が好きなだけ何度でも同じ中間学期を再受験することを許可していますが、彼はスコアを報告するだけなので、Rainは彼女が間違った問題を知りません。Rainは、最低限の回数の再受験ですべての正解を得るにはどうすればよいですか？より正式に言えば、試験の合計は nnn はい/いいえの質問、その正解は X1,X2,…,Xn∼iidBernoulli(0.5)X1,X2,…,Xn∼iidBernoulli(0.5)X_1, X_2, \dots, X_n \stackrel{iid}{\sim} \text{Bernoulli}(0.5)。Rainが再受験する必要があると予想される回数を最小限に抑える戦略を見つけたいです。しばらく考えていました。レインが初めて中期を取るとき、彼女のスコアは常にBinom(n,0.5)Binom(n,0.5)\text{Binom}(n, 0.5)、彼女の答えに関係なく、各戦略は同じ量のエントロピーを減少させます。しかし、これが何を意味するのかはわかりません。ランダムな推測がすべて「はい」またはすべて「いいえ」で答えるのと同じくらい良いということですか？これは宿題ではありませんが、次の研究プロジェクトをベースに計画しているので、本格的な答えの代わりにいくつかのヒントを提供してください。この質問にすでに回答している場合は、ポインタを教えてください。

11 probability distributions self-study entropy decision-theory

1

エラー指標としてのエントロピーがなぜ過剰適合につながるのですか？

ジョン・ラングフォードの投稿を引用したKDnuggetsに関するこの投稿は、エラーの指標として使用するとエントロピーと相互情報が過剰適合につながる可能性があると述べています。これについて詳しく説明していただけますか？

11 machine-learning error overfitting entropy

2

時系列の予測可能性を判断する方法は？

予測者が直面している重要な問題の1つは、特定の系列を予測できるかどうかです。 Peter Cattによる「予測可能性の先験的指標としてのエントロピー」というタイトルの記事を偶然見つけました。この記事では、近似エントロピー（ApEn）を使用して、所定の時系列を予測できる相対的な指標を決定しています。記事は言う、「ApEn値が小さいほど、一連のデータの後に類似データが続く可能性が高いことを示します（規則性）。逆に、ApEnの値が大きいほど、類似データが繰り返される可能性が低いことを示します（不規則性）。したがって、値が大きいほど、不規則性が高くなります。、ランダム性、システムの複雑さ。」そして、ApEnを計算するための数式が続きます。これは、相対的な意味で予測可能性を評価するために使用できる数値を提供するため、興味深いアプローチです。近似エントロピーの意味がわかりません。詳しく読んでいます。呼ばれるパッケージがありpracmaにRそれはあなたがAPENを計算することができますが。説明のために、3つの異なる時系列を使用してApEn数を計算しました。シリーズ1：有名なAirPassenger時系列-非常に確定的であり、簡単に予測できるはずです。系列2：太陽黒点の時系列-非常に明確に定義されていますが、系列1よりも予測しにくいはずです。シリーズ3：乱数このシリーズを予測する方法はありません。したがって、ApEnを計算する場合、シリーズ1はシリーズ2よりも少なく、シリーズ3は非常に少ないはずです。以下は、3つのシリーズすべてのApEnを計算するRスニペットです。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 これは私が期待したものではありません。ランダムシリーズは、明確に定義されたAirPassengerシリーズよりも数が少ないです。乱数を100に増やしても、明確に定義されたシリーズ2 / Sunspot.yealryシリーズよりも少ない次の結果が得られます。 > series3 <- approx_entropy(rnorm(1:100)) > series3 [1] …

10 time-series forecasting entropy maximum-entropy forecastability

2

n-gramモデルの複雑さと交差エントロピー

クロスエントロピーと当惑の関係を理解しようとしています。一般に、モデルMの場合、Perplexity（M）= 2 ^ entropy（M）です。この関係は、すべての異なるNグラム、つまり、ユニグラム、バイグラムなどに当てはまりますか？

10 natural-language entropy perplexity

2

多項ロジスティック損失vs（クロスエントロピーvs二乗誤差）

Caffe（ディープラーニングフレームワーク）がほとんどのモデルサンプルの出力層としてSoftmax Loss Layer SoftmaxWithLossを使用していることを確認しました。私の知る限り、Softmax損失層は、多項ロジスティック損失層とSoftmax層の組み合わせです。カフェから、彼らはそれを言った Softmax Loss Layerの勾配計算は、数値的に安定しています。ただし、この説明は私が望む答えではありません。説明は、レイヤーごとではなく、多項ロジスティック損失レイヤーとソフトマックス損失レイヤーの組み合わせを比較するだけです。しかし、他のタイプの損失関数と比較しないでください。しかし、教師付き学習の観点から、これらの3つのエラー関数である多項ロジスティック損失、クロスエントロピー（CE）、二乗誤差（SE）の違い/利点/欠点は何ですか？支持記事はありますか？

9 multinomial entropy sums-of-squares softmax

2

log（p（x、y））はどのようにして点ごとの相互情報を正規化しますか？

私は点ごとの相互情報の正規化された形式を理解しようとしています。 npmi=pmi(x,y)log(p(x,y))npmi=pmi(x,y)log(p(x,y))npmi = \frac{pmi(x,y)}{log(p(x,y))} なぜ対数結合確率は、点ごとの相互情報を[-1、1]の間に正規化するのですか？ポイントごとの相互情報は次のとおりです。 pmi=log(p(x,y)p(x)p(y))pmi=log(p(x,y)p(x)p(y))pmi = log(\frac{p(x,y)}{p(x)p(y)}) p（x、y）は[0、1]によって制限されるため、log（p（x、y））は（、0]によって制限されます。log（p（x、y））は、分子ですが、正確にはわかりません。また、エントロピー思い出しますが、正確な関係はわかりません。h=−log(p(x))h=−log(p(x))h=-log(p(x))

9 entropy information-theory mutual-information

1

「

短い質問：なぜこれが本当なのですか？長い質問：非常に単純に、私はこの最初の方程式を正当化するものを理解しようとしています。私が読んでいる本の著者（必要な場合はここに示しますが、必須ではありません）は次のように主張しています。ガウスに近いという仮定のため、次のように書くことができます。 p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ))p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ)) p_0(\xi) = A \; \phi(\xi) \; exp( a_{n+1}\xi + (a_{n+2} + \frac{1}{2})\xi^2 + \sum_{i=1}^{n} a_i G_i(\xi)) ここで、p0(ξ)p0(ξ)p_0(\xi)は、一連の期待値（単純な数）のみを観察した場合に、最大エントロピーを持つ観察データのPDFです。。。nci,i=1...nci,i=1...nc_i, i = 1 ... n、ここでci=E{Gi(ξ)}ci=E{Gi(ξ)}c_i = \mathbb{E}\{G_i(\xi)\}、およびϕ(ξ)ϕ(ξ)\phi(\xi)は、標準化されたガウス変数、つまり平均0、単位分散のPDFです。このすべてが起こっているのは、PDF、単純化するための出発点として上記の方程式を使用することであり、私は彼がどのようにそれを行うかを取得しますが、私は彼が上記の方程式を正当化する方法を取得しません。出発点。p0(ξ)p0(ξ)p_0(\xi) 私は、誰も難読化しないように簡潔にするよう努めましたが、詳細が必要な場合はコメントでお知らせください。ありがとう！

9 probability normal-distribution entropy maximum-entropy

2

データのROC曲線を計算する

そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線（FPR対TPR OR FAR対FRR）を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

xスケールは同じであるがRのyスケールが異なる2つのグラフを垂直に積み重ねるにはどうすればよいですか？

ご挨拶、現在、私はRで次のことをしています： require(zoo) data <- read.csv(file="summary.csv",sep=",",head=TRUE) cum = zoo(data$dcomp, as.Date(data$date)) data = zoo(data$compressed, as.Date(data$date)) data <- aggregate(data, identity, tail, 1) cum <- aggregate(cum, identity, sum, 1) days = seq(start(data), end(data), "day") data2 = na.locf(merge(data, zoo(,days))) plot(data2,xlab='',ylab='compressed bytes',col=rgb(0.18,0.34,0.55)) lines(cum,type="h",col=rgb(0,0.5,0)) summary.csvの一部： date,revision,file,lines,nclass,nattr,nrel,bytes,compressed,diff,dcomp 2007-07-25,16,model.xml,96,11,22,5,4035,991,0,0 2007-07-27,17,model.xml,115,16,26,6,4740,1056,53,777 2007-08-09,18,model.xml,106,16,26,7,4966,1136,47,761 2007-08-10,19,model.xml,106,16,26,7,4968,1150,4,202 2007-09-06,81,model.xml,111,16,26,7,5110,1167,13,258 ... 最後の2行は必要な情報をプロットしており、結果は次のようになります。青い線は、関心のあるアーティファクトのバイト単位のエントロピーです。緑の線は、変化のエントロピーを表します。さて、このグラフでは、スケールに大きな違いがないため、うまく機能します。しかし、緑の線が非常に小さくなって見えなくなる他のグラフがあります。私が探していたソリューションには、次の2つのことが含まれていました。 …

9 r time-series data-visualization entropy

1

エントロピーと圧縮/暗号化データのバイト分布の比較

しばらくの間、自分自身を占める質問があります。暗号化されたデータを識別するために、エントロピーテストがよく使用されます。分析されたデータのバイトが均一に分散されると、エントロピーが最大になります。エントロピーテストは、暗号化されたデータを識別します。これは、このデータが、エントロピーテストの使用時に暗号化されたものとして分類される圧縮データのように均一な分布を持っているためです。例：一部のJPGファイルのエントロピーは7,9961532ビット/バイト、一部のTrueCryptコンテナーのエントロピーは7,9998857です。つまり、エントロピーテストでは、暗号化されたデータと圧縮されたデータの違いを検出できません。しかし、最初の写真でわかるように、JPGファイルのバイトは均一に分散されていません（少なくとも、truecrypt-containerからのバイトほど均一ではありません）。別のテストは、周波数分析です。各バイトの分布が測定され、たとえば、分布を仮説の分布と比較するためにカイ2乗検定が実行されます。その結果、p値が得られます。JPGとTrueCrypt-dataでこのテストを実行すると、結果が異なります。 JPGファイルのp値は0です。これは、統計ビューからの分布が均一でないことを意味します。TrueCryptファイルのp値は0,95です。これは、分布がほぼ完全に均一であることを意味します。私の質問：エントロピーテストでこのような誤検知が発生する理由を誰かに教えてもらえますか？情報の内容が表現されている単位のスケール（ビット/バイト）ですか？より細かいスケールのため、例えばp値はより良い「単位」ですか？回答/アイデアをありがとうございました！ JPG-Image TrueCrypt-Container

8 distributions hypothesis-testing chi-squared entropy compression

2

連続分布のエントロピーの解釈？

「エントロピー」は、確率分布の「情報」の程度を大まかに捉えたものです。離散分布の場合、より正確な解釈があります。離散確率変数のエントロピーは、確率変数の結果を転送するために必要な予想ビット数の下限です。しかし、連続確率変数の場合、結果の数は無数にあります。そのため、ビットの有限文字列で発生した正確な結果を転送し始めることさえできません。連続変数のエントロピーの同等の解釈は何ですか？

7 entropy information-theory

1

の分布

いう、バツ∈RんX∈RnX \in \mathbb{R}^n （と n > 1n>1n > 1）密度があります fバツ（x ）fX(x)f_X(x)。の分布について何が言えるか Y= − ログfバツ（X）？Y=−log⁡fX(X)? Y = -\log f_X(X)?

7 distributions mathematical-statistics data-transformation entropy

1

均一な部分分布を持つ分布のエントロピー

LETセット内の値を取る確率変数である。の分布は均一ではありませんが、「均一」なサブセットありますすべてのイベントは等しい確率で発生します。バツXXバツX\mathcal{X}バツXXA ∈ XA∈XA\in\mathcal{X}あAA のエントロピーをセットサイズに関連付けることはできますか？直感的には、のエントロピーは少なくともであると言えるはずです、しかしそれを証明する方法がわかりません。バツXXあAAバツXXログ| A |log⁡|A|\log |A| 例えば、上に分布均一であり、そして結合は自明成り立ちます。A = XA=XA = \mathcal{X}バツXX

7 entropy information-theory

1

既知の平均と分散を持つ比率の最大エントロピー分布？ベータ版ですか？

比率とその標準誤差を考慮して、仮定を最小化/エントロピーを最大化する分布仮定は何ですか？それはベータ版ですか（そして、モーメント法を使用してそのパラメータを推定できますか）？または、他の何か？

7 distributions proportion entropy beta-distribution maximum-entropy

タグ付けされた質問 「entropy」

タグ付けされた質問「entropy」