タグ付けされた質問 「histogram」

ヒストグラムは、連続変数の頻度をグラフで表したものです。変数はビンに分割され、データ内の頻度に比例してバーごとにバーが描画されます。

2
2つの分布を組み合わせるモデルでの適合度の測定
モデル化しようとしている二重ピークのあるデータがあり、それらを個別に処理することができないほどピーク間に十分なオーバーラップがあります。データのヒストグラムは次のようになります。 このために2つのモデルを作成しました。1つは2つのポアソン分布を使用し、もう1つは2つの負の二項分布を使用します(過剰分散を説明するため)。どのモデルがデータに正確に適合するかを判断する適切な方法は何ですか? 私の最初の考えは、コルモゴロフ・スミルノフ検定を使用して各モデルをデータと比較し、次に尤度比検定を行って、1つが非常に優れているかどうかを確認することです。これは理にかなっていますか?もしそうなら、私は尤度比検定を実行する方法を正確に知りません。カイ二乗は適切ですか、そして私にはいくつの自由度がありますか? それが役立つ場合、モデルの一部の(非常に簡略化された)Rコードは次のようになります。 ## inital data points a <- read.table("data") #create model data model.pois = c(rpois(1000000,200),rpois(500000,250)) model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5) #Kolmogorov-Smirnov test #use ks.boot, since it's count data that may contain duplicate values kpois = ks.boot(model.pois,a) knb = ks.boot(model.nb,a) #here's where I'd do some sort of likelihood ratio test # …

2
複数の「ヒストグラム」(棒グラフ)の視覚化
データを視覚化する正しい方法を選択するのが困難です。我々は持っていると言う書店販売している本を、そしてすべての本は、少なくとも一つの持っているカテゴリを。 書店の場合、本のすべてのカテゴリーをカウントすると、その書店の特定のカテゴリーに該当する本の数を示すヒストグラムが取得されます。 書店の動作を視覚化したいのですが、他のカテゴリよりもカテゴリを好むかどうかを確認したいと思います。彼らがまとめてSFを支持しているかどうかは知りたくありませんが、すべてのカテゴリを平等に扱っているかどうかは知りたいです。 約100万冊の書店があります。 私は4つの方法を考えました: データをサンプリングし、500の書店のヒストグラムのみを表示します。10x10グリッドを使用して、5つの個別のページに表示します。4x4グリッドの例: #1と同じ。ただし、今回はカウントdescに従ってx軸の値を並べ替えます。したがって、好意がある場合は簡単に確認できます。 #2のヒストグラムをデッキのようにまとめて3Dで表示することを想像してみてください。このようなもの: 色を表すために3番目の軸を使用して色を表現する代わりに、ヒートマップ(2Dヒストグラム)を使用 します。 複数のヒストグラムを表す他の視覚化のアイデア/ツールはありますか?

3
PMFに0が含まれている場合のカルバックライブラーダイバージェンスの計算方法
私は次の時系列を持っています 以下に投稿されたデータを使用して取得されます。 スライディングウィンドウのサイズが10の場合、現在のスライディングウィンドウ内の値のPMFと履歴のPMFの間のKLダイバージェンスを計算して、KLダイバージェンスの値を経時的にプロットするという最終目標を設定して、 2つの時系列を比較できます。 今のところ、私が直面している概念的な問題があります(Pythonを使用して説明します)。 In [228]: samples = [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1] # In reality this 10 should be 20 because that is the max value I have seen in the timeseries In [229]: bins = scipy.linspace(0, 10, 21) In [230]: bins …

2
この「現象」とは何ですか?
以下は、いくつかのデータのヒストグラムです。ビンは整数で、他のパラメーターは関係ありません。 ご覧のように、奇数と偶数の2つの別々の重複する正規分布があるようです。 偶数になる確率は1/3、奇数の場合は2/3です。 正直に言うと、これの実際の統計的有意性がわからないので、詳細を知ることさえ調べようとしていますが、何も見つけることができません。画像検索を逆にしても、マルチモーダル分布などに関する情報しか得られず、マルチモーダル分布が実際にこの方法で実際にオーバーラップする時期について何も見つからない これに名前はありますか? 興味のある人のためのデータは、MATLABスクリプトを使用した1,000,000のランダム化されたgoofspielゲーム(N = 13)からのものです。 N = 1000000; random = zeros(1,N); for i = 1 : N pc = randperm(13); p1 = randperm(13); p2 = randperm(13); random(i) = sum(pc.*sign(p1-p2)); end histogram(random,'BinMethod','integer') より一般的な(人工的なものですが)例は次のようになります a = [1:50 50:-1:1]; b = normpdf(linspace(-2,2),0,0.5).*50; c = a; rng('default') %For reproducibility d = …


3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
Freedman–Diaconisルールによるヒストグラムのビンの最適な数:理論上のレートと実際の数の差
ウィキペディアは、フリードマンとディアコニスのルールの下で、ヒストグラムのビンの最適な数、はkkk k∼n1/3k∼n1/3k\sim n^{1/3} ここで、はサンプルサイズです。nnn ただし、nclass.FD少なくともガウスデータでこのルールを実装するR の関数を見ると、場合、ビンの数はよりも速い速度で増加しているように見えます、に近い(実際には、最適な近似は示唆してい)。この違いの根拠は何ですか?N 1 / 3 N 1 - √ログ(N )∈ (8 、16 )log⁡(n)∈(8,16)\log(n)\in(8,16)ん1 / 3n1/3n^{1/3} m個≈N0.4ん1 - 1 / 3√n1−1/3n^{1-\sqrt{1/3}}M ≈ nは0.4m≈n0.4m\approx n^{0.4} 編集:詳細: ラインはOLSで、切片は0.429、勾配は0.4です。いずれの場合も、データ(x)は標準のガウスから生成され、に入力されましたnclass.FD。プロットは、ベクトルのサイズ(長さ)とnclass.FD関数から返されるクラスの最適数を示しています。 ウィキペディアからの引用: ビンの数が比例する必要がある理由 は次のとおりです。データが滑らかな密度の有界確率分布のn個の独立した実現として得られると仮定します。次に、nは無限大になる傾向があるので、ヒストグラムは等しく「険しい」ままです。場合分布(例えば、標準偏差またはインター四分位範囲)の»幅«であり、次いで、ビン内のユニット数(周波数)程度であると相対標準誤差は、オーダーであります。次のビンと比較すると、密度の導関数がゼロでない場合、周波数の相対変化は次数です。場合、これら2つは同じ順序です。 S N H / S √ん1 / 3n1/3n^{1/3}sssn 時間/秒nh/sn h/sのH/SHS/N 1 / 3 KN 1 / 3s /(n …

2
2次元ヒストグラムの最適なビン幅
1Dヒストグラムで最適なビン幅を選択するための多くのルールがあります(例を参照) 2次元のヒストグラムに最適な等ビン幅の選択を適用するルールを探しています。 そのようなルールはありますか?おそらく、1Dヒストグラムのよく知られたルールの1つは簡単に適応できます。

2
打ち切られた分布による密度推定?
左側が切り捨てられているデータがあります。私はそれを平滑化しようとするのではなく、何らかの方法で処理する密度推定に適合させたいと思います。 これに対処できる既知の方法(通常、Rで) サンプルコード: set.seed(1341) x <- c(runif(30, 0, 0.01), rnorm(100,3)) hist(x, br = 10, freq = F) lines(density(x), col = 3, lwd = 3) ありがとう:)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.