統計とビッグデータ histogram

2

モデル化しようとしている二重ピークのあるデータがあり、それらを個別に処理することができないほどピーク間に十分なオーバーラップがあります。データのヒストグラムは次のようになります。このために2つのモデルを作成しました。1つは2つのポアソン分布を使用し、もう1つは2つの負の二項分布を使用します（過剰分散を説明するため）。どのモデルがデータに正確に適合するかを判断する適切な方法は何ですか？私の最初の考えは、コルモゴロフ・スミルノフ検定を使用して各モデルをデータと比較し、次に尤度比検定を行って、1つが非常に優れているかどうかを確認することです。これは理にかなっていますか？もしそうなら、私は尤度比検定を実行する方法を正確に知りません。カイ二乗は適切ですか、そして私にはいくつの自由度がありますか？それが役立つ場合、モデルの一部の（非常に簡略化された）Rコードは次のようになります。 ## inital data points a <- read.table("data") #create model data model.pois = c(rpois(1000000,200),rpois(500000,250)) model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5) #Kolmogorov-Smirnov test #use ks.boot, since it's count data that may contain duplicate values kpois = ks.boot(model.pois,a) knb = ks.boot(model.nb,a) #here's where I'd do some sort of likelihood ratio test # …

9 modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio

2

複数の「ヒストグラム」（棒グラフ）の視覚化

データを視覚化する正しい方法を選択するのが困難です。我々は持っていると言う書店販売している本を、そしてすべての本は、少なくとも一つの持っているカテゴリを。書店の場合、本のすべてのカテゴリーをカウントすると、その書店の特定のカテゴリーに該当する本の数を示すヒストグラムが取得されます。書店の動作を視覚化したいのですが、他のカテゴリよりもカテゴリを好むかどうかを確認したいと思います。彼らがまとめてSFを支持しているかどうかは知りたくありませんが、すべてのカテゴリを平等に扱っているかどうかは知りたいです。約100万冊の書店があります。私は4つの方法を考えました：データをサンプリングし、500の書店のヒストグラムのみを表示します。10x10グリッドを使用して、5つの個別のページに表示します。4x4グリッドの例：＃1と同じ。ただし、今回はカウントdescに従ってx軸の値を並べ替えます。したがって、好意がある場合は簡単に確認できます。＃2のヒストグラムをデッキのようにまとめて3Dで表示することを想像してみてください。このようなもの：色を表すために3番目の軸を使用して色を表現する代わりに、ヒートマップ（2Dヒストグラム）を使用します。複数のヒストグラムを表す他の視覚化のアイデア/ツールはありますか？

9 pca data-visualization histogram barplot

3

PMFに0が含まれている場合のカルバックライブラーダイバージェンスの計算方法

私は次の時系列を持っています以下に投稿されたデータを使用して取得されます。スライディングウィンドウのサイズが10の場合、現在のスライディングウィンドウ内の値のPMFと履歴のPMFの間のKLダイバージェンスを計算して、KLダイバージェンスの値を経時的にプロットするという最終目標を設定して、 2つの時系列を比較できます。今のところ、私が直面している概念的な問題があります（Pythonを使用して説明します）。 In [228]: samples = [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1] # In reality this 10 should be 20 because that is the max value I have seen in the timeseries In [229]: bins = scipy.linspace(0, 10, 21) In [230]: bins …

9 time-series probability multivariate-analysis histogram kullback-leibler

2

この「現象」とは何ですか？

以下は、いくつかのデータのヒストグラムです。ビンは整数で、他のパラメーターは関係ありません。ご覧のように、奇数と偶数の2つの別々の重複する正規分布があるようです。偶数になる確率は1/3、奇数の場合は2/3です。正直に言うと、これの実際の統計的有意性がわからないので、詳細を知ることさえ調べようとしていますが、何も見つけることができません。画像検索を逆にしても、マルチモーダル分布などに関する情報しか得られず、マルチモーダル分布が実際にこの方法で実際にオーバーラップする時期について何も見つからないこれに名前はありますか？興味のある人のためのデータは、MATLABスクリプトを使用した1,000,000のランダム化されたgoofspielゲーム（N = 13）からのものです。 N = 1000000; random = zeros(1,N); for i = 1 : N pc = randperm(13); p1 = randperm(13); p2 = randperm(13); random(i) = sum(pc.*sign(p1-p2)); end histogram(random,'BinMethod','integer') より一般的な（人工的なものですが）例は次のようになります a = [1:50 50:-1:1]; b = normpdf(linspace(-2,2),0,0.5).*50; c = a; rng('default') %For reproducibility d = …

8 distributions normal-distribution pdf terminology histogram

3

ヒストグラムの「ビンサイズ」は、規則性の制約と考えることができますか？

ヒストグラムを密度関数の推定値と考える場合、ビンサイズをその関数の局所構造を制約するパラメーターと考えるのが妥当でしょうか。また、この推論を明確にするためのより良い方法はありますか？

8 machine-learning distributions regularization histogram binning

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

Freedman–Diaconisルールによるヒストグラムのビンの最適な数：理論上のレートと実際の数の差

ウィキペディアは、フリードマンとディアコニスのルールの下で、ヒストグラムのビンの最適な数、はkkk k∼n1/3k∼n1/3k\sim n^{1/3} ここで、はサンプルサイズです。nnn ただし、nclass.FD少なくともガウスデータでこのルールを実装するR の関数を見ると、場合、ビンの数はよりも速い速度で増加しているように見えます、に近い（実際には、最適な近似は示唆してい）。この違いの根拠は何ですか？N 1 / 3 N 1 - √ログ（N ）∈ （8 、16 ）log⁡(n)∈(8,16)\log(n)\in(8,16)ん1 / 3n1/3n^{1/3} m個≈N0.4ん1 - 1 / 3√n1−1/3n^{1-\sqrt{1/3}}M ≈ nは0.4m≈n0.4m\approx n^{0.4} 編集：詳細：ラインはOLSで、切片は0.429、勾配は0.4です。いずれの場合も、データ（x）は標準のガウスから生成され、に入力されましたnclass.FD。プロットは、ベクトルのサイズ（長さ）とnclass.FD関数から返されるクラスの最適数を示しています。ウィキペディアからの引用：ビンの数が比例する必要がある理由は次のとおりです。データが滑らかな密度の有界確率分布のn個の独立した実現として得られると仮定します。次に、nは無限大になる傾向があるので、ヒストグラムは等しく「険しい」ままです。場合分布（例えば、標準偏差またはインター四分位範囲）の»幅«であり、次いで、ビン内のユニット数（周波数）程度であると相対標準誤差は、オーダーであります。次のビンと比較すると、密度の導関数がゼロでない場合、周波数の相対変化は次数です。場合、これら2つは同じ順序です。 S N H / S √ん1 / 3n1/3n^{1/3}sssn 時間/秒nh/sn h/sのH/SHS/N 1 / 3 KN 1 / 3s /（n …

8 histogram rule-of-thumb

2

2次元ヒストグラムの最適なビン幅

1Dヒストグラムで最適なビン幅を選択するための多くのルールがあります（例を参照） 2次元のヒストグラムに最適な等ビン幅の選択を適用するルールを探しています。そのようなルールはありますか？おそらく、1Dヒストグラムのよく知られたルールの1つは簡単に適応できます。

8 optimization histogram

2

打ち切られた分布による密度推定？

左側が切り捨てられているデータがあります。私はそれを平滑化しようとするのではなく、何らかの方法で処理する密度推定に適合させたいと思います。これに対処できる既知の方法（通常、Rで）サンプルコード： set.seed(1341) x <- c(runif(30, 0, 0.01), rnorm(100,3)) hist(x, br = 10, freq = F) lines(density(x), col = 3, lwd = 3) ありがとう:)

8 r pdf histogram kernel-smoothing

1

「bin」というラベルの付いたヒストグラムの

ヒストグラムについて話すとき、なぜx軸を「ビン」と呼ぶのですか？

6 terminology histogram

タグ付けされた質問 「histogram」

タグ付けされた質問「histogram」