タグ付けされた質問 「histogram」

ヒストグラムは、連続変数の頻度をグラフで表したものです。変数はビンに分割され、データ内の頻度に比例してバーごとにバーが描画されます。

4
ヒストグラムに基づくデータのおおよその分布の評価
ヒストグラムに基づいてデータが指数関数である(つまり、右に歪んでいる)かどうかを確認するとします。 データをグループ化またはビン化する方法に応じて、大幅に異なるヒストグラムを取得できます。 ヒストグラムのセットの1つは、データが指数関数的であるように思われます。別のセットでは、データは指数関数ではないように見えます。適切に定義されたヒストグラムから分布を決定するにはどうすればよいですか?

8
ヒストグラム内のビンの最適数の計算
ヒストグラムで使用するビンの数を決定するために、できる限り最適な方法を見つけることに興味があります。私のデータは最大で30〜350個のオブジェクトの範囲である必要があります。特に、「Otsuの方法のように」しきい値を適用しようとしています。悪い」オブジェクト。値の密度を高める必要があります。具体的な値は、オブジェクトごとに1〜10のスコアを持ちます。スコア6〜10の5〜10個のオブジェクトと、スコア1〜4の20〜25個のオブジェクトがありました。一般的に大津の方法のようなものが低得点のオブジェクトを閾値処理することを可能にするヒストグラムビニングパターンを見つけたいです。しかし、私が見たOtsuの実装では、ビンのサイズは256であり、多くの場合、256よりもはるかに少ないデータポイントがあります。私にとっては、256は良いビン番号ではないことを示唆しています。データが非常に少ない場合、使用するビンの数を計算するためにどのようなアプローチを取る必要がありますか?

5
R-QQPlot:データが正規分布しているかどうかを確認する方法
Shapiro-Wilk正規性テストを行った後、これをプロットしました。テストでは、人口が正規分布している可能性が高いことが示されました。ただし、このプロットでこの「動作」を確認するにはどうすればよいですか? 更新 データの単純なヒストグラム: 更新 Shapiro-Wilkテストは次のように述べています。

6
2つのヒストグラムの類似性を評価する方法は?
2つのヒストグラムがある場合、それらが類似しているかどうかをどのように評価しますか? 2つのヒストグラムを単に見るだけで十分ですか?単純な1対1のマッピングには、ヒストグラムがわずかに異なり、わずかにシフトする場合、目的の結果が得られないという問題があります。 助言がありますか?

3
ポアソン分布は正規分布とどのように異なりますか?
次のように、ポアソン分布を持つベクトルを生成しました。 x = rpois(1000,10) を使用してヒストグラムを作成するhist(x)と、分布はおなじみのベル型の正規分布のように見えます。ただし、Kolmogorov-Smirnoffのテストでks.test(x, 'pnorm',10,3)は、p値が非常に小さいため、分布は正規分布とは大きく異なります。 だから私の質問は次のとおりです。ヒストグラムが正規分布に非常に似ている場合、ポアソン分布は正規分布とどのように異なりますか?

3
ヒストグラムよりもQQプロットを使用する利点
ではこのコメント、ニック・コックスは書きました: クラスへのビニングは古代の方法です。ヒストグラムは便利ですが、最新の統計ソフトウェアを使用すると、生データに分布を適合させることが簡単になります。ビニングは、どの分布がもっともらしいかを判断するのに重要な詳細を単に捨てます。 このコメントの文脈は、フィットを評価するための代替手段としてQQプロットを使用することを示唆しています。声明は非常に妥当なように聞こえますが、この声明を裏付ける信頼できる参照について知りたいです。単純な「まあ、これは明白に聞こえます」を超えて、この事実をより徹底的に調査する論文はありますか?結果または同類の実際の体系的な比較はありますか? また、ヒストグラムに対するQQプロットの利点が、モデルフィッティング以外のアプリケーションにどの程度まで拡張されるかを確認したいと思います。上の回答この質問は「『何かが間違っている』 [...]ちょうどことを示していますQQプロット」ことに同意します。ヌルモデルと比較して観測データの構造を識別するツールとしてそれらを使用することを考えており、非ランダムを検出するだけでなく説明するためにQQプロット(またはその基礎となるデータ)を使用する確立された手順が存在するかどうか疑問に思います観測データの構造。したがって、この指示を含む参照は特に有用です。

4
分布がマルチモーダルかどうかをテストするにはどうすればよいですか?
データのヒストグラムをプロットすると、2つのピークがあります。 それは潜在的なマルチモーダル分布を意味しますか?dip.testR(library(diptest))を実行しましたが、出力は次のとおりです。 D = 0.0275, p-value = 0.7913 私のデータにはマルチモーダル分布があると結論付けることができますか? データ 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 …

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
2Dヒストグラムの適合度
星のパラメーターを表す2つのデータセットがあります。観測されたデータとモデル化されたデータです。これらのセットを使用して、2色図(TCD)と呼ばれるものを作成します。サンプルは次のとおりです。 Aは観測されたデータであり、Bはモデルから抽出されたデータです(黒い線は気にせず、ドットはデータを表します)Aダイアグラムは1つしかありませんが、必要な数の異なるBダイアグラムを作成できます。Aに最適なものを保持するため。 したがって、私が必要とするのは、ダイアグラムB(モデル)からダイアグラムA(観察)への適合度をチェックする信頼できる方法です。 今私がしていることは、両方の軸をビニングすることで各ダイアグラムの2Dヒストグラムまたはグリッド(私はそれを呼んでいますが、より適切な名前かもしれません)を作成します(それぞれ100ビン)その後、グリッドの各セルを通過しますそして、その特定のセルのAとBの間のカウントの絶対差を見つけます。すべてのセルを処理した後、各セルの値を合計するため、AとBの間の適合度()を表す単一の正のパラメーターになります。ゼロに最も近いほど、適合度が高くなります。基本的に、これはそのパラメータがどのように見えるかです:gfgfgf gf=∑ij|aij−bij|gf=∑ij|aij−bij|gf = \sum_{ij} |a_{ij}-b_{ij}|; ここで、はその特定のセル(決定)のダイアグラムAの星の数であり、はBの数です。aijaija_{ij}ijijijbijbijb_{ij} これは、各セルのカウントの差が、作成したグリッドでどのように見えるかです絶対値を使用していないことに注意してくださいしかし、この画像では私が行う計算する際にそれらを使用し)パラメータを:(aij−bij)(aij−bij)(a_{ij}-b{ij})(aij−bij)(aij−bij)(a_{ij}-b{ij})gfgfgf 問題は、これが適切な推定量ではないかもしれないとアドバイスされたことです。主に、パラメータが低いためにこの適合が他の適合よりも優れていると言う以外は、私は本当に何も言えません。 重要: (これを提示してくれた@PeterEllisに感謝) 1- Bのポイントは、Aのポイントと1対1で関連付けられていません。これは、最適なフィットを検索する際に留意すべき重要なことです。AとBのポイントの数は必ずしも同じではなく、適合度テストもこの不一致を考慮して最小化しようとします。 2-すべてのBデータセット(モデル出力)のポイント数は、Aに合わせようとしていますが、固定されていません。 私はいくつかのケースで使用されるカイ二乗検定を見てきました: ∑i(Oi−Ei)2/Ei∑i(Oi−Ei)2/Ei\sum_i (O_i-E_i)^2/E_i ; ここで、は観測頻度(モデル)、は予想頻度(観測)です。OiOiO_iEiEiE_i しかし、問題は次のとおりですがゼロの場合はどうすればよいですか?上の画像でわかるように、その範囲でこれらのダイアグラムのグリッドを作成すると、がゼロのセルがたくさんあります。EiEiE_iEiEiE_i また、ヒストグラムが関係するこのような場合に対数尤度ポアソン検定を適用することを推奨する人もいます。これが正しい場合、誰かがこの特定のケースにそのテストを使用する方法を教えてくれれば本当に感謝しています(統計の私の知識はかなり貧弱なので、できるだけ簡単にしてください:)

4
カイ二乗距離を使用した2つのヒストグラムの比較
顔の2つの画像を比較したい。LBPヒストグラムを計算しました。そこで、これら2つのヒストグラムを比較して、これらのヒストグラムがどれだけ等しいか(0〜100%)を知る必要があります。 このタスクを解決する方法は数多くありますが、LBPメソッドの著者は、ヒストグラムの交差および対数尤度統計よりもカイ二乗距離の方がパフォーマンスが優れていることを強調しています(ローカルバイナリパターンによる顔の説明:顔認識への応用。2004)。 著者は、カイ二乗距離の式も示しています。 ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} ここで、はビンの数、は最初のビンの値、は2番目のビンの値です。x i y innnxixix_iyiyiy_i いくつかの研究(たとえば、二次-チーヒストグラム距離ファミリ)で、カイ-二乗距離の公式は次のようになっています。 12∑i = 1n(x私− y私)2(x私+ y私)12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} そして、そこhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm私は、カイ二乗距離の式を参照してください。 ∑i = 1n(x私− y私)2y私∑i=1n(xi−yi)2yi \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {y_i} 私はそれにこだわった。いくつか質問があります。 どの表現を使用すべきですか? 差異の結果をどのように解釈すればよいですか?差が0であるということは、両方のヒストグラムが等しいことを意味しますが、両方のヒストグラムがまったく異なる場合はどうすればわかりますか?カイ二乗テーブルを使用する必要がありますか?または、しきい値を使用する必要がありますか?基本的に、差をパーセントにマッピングしたいです。 これら3つの式が異なる理由


1
ピアソンのカイ二乗検定の仕組み
最近の反対票に続いて、私はピアソン・カイ二乗検定の理解を確認しようとしています。通常、カイ二乗統計(またはカイ二乗減少統計)を使用して、結果の適合のフィッティングまたはチェックを行います。この場合、分散は通常、テーブルまたはヒストグラムの予想カウント数ではなく、実験的に決定された分散です。いずれにせよ、私は常にテストが多項PDFの漸近正規性を使用しているという印象を受けていました(つまり、私のテスト統計は Q = (n − Nm )⊤V− 1(n − Nm )Q=(n−Nm)⊤V−1(n−Nm)Q = (n-Nm)^\top V^{-1}(n-Nm) およびは漸近多重正規で、Vは共分散行列です)。したがって、Qには大きなnが与えられたカイ2乗分布があるため、統計の分母として期待されるカウント数を使用すると、大きなnに対して有効になります。これはヒストグラムにのみ当てはまる可能性があり、私は長年にわたって小さなデータテーブルを分析していません。(n − Nm )(n−Nm)(n-Nm)VVVQQQnnnnnn 私が見逃しているより微妙な議論はありますか?私は参考文献に興味があります、あるいはもっと簡単な説明に興味があります。(その可能性はありますが、漸近語という言葉を省略することに賛成票を投じましたが、それはかなり重要だと思います。)

3
私の分布は正常です。コルモゴロフ-スミルノフ検定は同意しない
私が持っているいくつかのデータの正規性に問題があります:p = .0000では正常ではないと言うコルモゴロフ検定を実行しましたが、わかりません:私の分布の歪度=-。497、尖度= -0,024 これは非常に正規に見える私の分布のプロットです... (私は3つのスコアを持っていますが、このスコアのそれぞれはコルモゴロフ検定の有意なp値で正常ではありません...私は本当に理解していません)

3
2つのヒストグラムを同じスケールで配置する最良の方法は?
詳細に比較したい2つの分布があるとしましょう。つまり、形状、スケール、シフトを簡単に見えるようにします。これを行う1つの良い方法は、各分布のヒストグラムをプロットし、それらを同じXスケールに配置し、一方を他方の下に積み重ねることです。 これを行うとき、ビニングはどのように行われるべきですか?下の画像1のように、1つの分布が他の分布よりもはるかに分散している場合でも、両方のヒストグラムで同じビン境界を使用する必要がありますか?下の画像2のように、ズームする前にヒストグラムごとにビニングを個別に行う必要がありますか?これについての経験則もありますか?

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.