統計とビッグデータ mutual-information

2

相互の情報を使用して、2つの変数AとBの関係を定量化したいと思います。それを計算する方法は、観測値をビニングすることです（以下のPythonコードの例を参照）。ただし、どのビンの数が妥当かを決定する要因は何ですか？計算を高速にする必要があるので、単純に多くのビンを使用して安全側にすることはできません。 from sklearn.metrics import mutual_info_score def calc_MI(x, y, bins): c_xy = np.histogram2d(x, y, bins)[0] mi = mutual_info_score(None, None, contingency=c_xy) return mi

10 information-theory mutual-information binning

2

log（p（x、y））はどのようにして点ごとの相互情報を正規化しますか？

私は点ごとの相互情報の正規化された形式を理解しようとしています。 npmi=pmi(x,y)log(p(x,y))npmi=pmi(x,y)log(p(x,y))npmi = \frac{pmi(x,y)}{log(p(x,y))} なぜ対数結合確率は、点ごとの相互情報を[-1、1]の間に正規化するのですか？ポイントごとの相互情報は次のとおりです。 pmi=log(p(x,y)p(x)p(y))pmi=log(p(x,y)p(x)p(y))pmi = log(\frac{p(x,y)}{p(x)p(y)}) p（x、y）は[0、1]によって制限されるため、log（p（x、y））は（、0]によって制限されます。log（p（x、y））は、分子ですが、正確にはわかりません。また、エントロピー思い出しますが、正確な関係はわかりません。h=−log(p(x))h=−log(p(x))h=-log(p(x))

9 entropy information-theory mutual-information

3

共同エントロピーに関する直感

ジョイントエントロピーに関する直感を構築するのに苦労しています。 =共同分布の不確実性p （x 、y ） ; H （X ） = p x（x ）の不確実性; H （Y ） = p y（y ）の不確実性。H（X、Y）H(X,Y)H(X,Y)p （x 、y）p(x,y)p(x,y)H（X）H(X)H(X)pバツ（x ）px(x)p_x(x)H（Y）H(Y)H(Y)py（y）py(y)p_y(y) H（X）が高い場合、分布はより不確実であり、そのような分布の結果を知っている場合、より多くの情報があります！したがって、H（X）も情報を定量化します。今、私たちは見ることができますH（X、Y）≤ H（X）+ H（Y）H(X,Y)≤H(X)+H(Y)H(X,Y) \leq H(X) + H(Y) しかし、がわかっている場合は、p x（x ）とp y（y ）を取得できるため、ある意味でp （x 、y ）はp x（x ）とp y（y ）の両方よりも多くの情報を持っています、それでp（x、y）に関連する不確実性は、個々の不確実性の合計よりも多くあるべきではありませんか？p （x 、y）p(x,y)p(x,y)pバツ（x ）px(x)p_x(x)py（y）py(y)p_y(y)p （x 、y）p(x,y)p(x,y)pバツ（x ）px(x)p_x(x)py（y）py(y)p_y(y)

9 information-theory mutual-information

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

相互相関と相互情報量

相互相関と相互情報の違いは何ですか。これらの方法を使用してどのような問題を解決できますか。コメントありがとうございます。明確にするために、質問は時系列分析ではなくイオマージュ分析への関心によって促されますが、その領域での啓蒙も評価されます

9 cross-correlation mutual-information

タグ付けされた質問 「mutual-information」

タグ付けされた質問「mutual-information」