タグ付けされた質問 「kolmogorov-smirnov」

コルモゴロフ-スミルノフ検定は、分布へのデータの適合度の検定です。変数が正規分布であるかどうかをテストするためによく使用されます。

2
どの分布がデータに最も適しているかを判断する方法は?
データセットがあり、どの分布がデータに最も適しているかを把握したいと思います。 fitdistr()関数を使用して、必要なパラメーターを推定し、想定される分布(つまり、ワイブル、コーシー、正規)を記述しました。これらのパラメーターを使用して、コルモゴロフ・スミルノフ検定を実施して、サンプルデータが想定分布と同じ分布からのものかどうかを推定できます。 p値が0.05より大きい場合、サンプルデータは同じ分布から引き出されたと仮定できます。しかし、p値は適合度に関する情報を提供しませんよね? したがって、サンプルデータのp値がワイブル分布と同様に正規分布で0.05を超える場合、どの分布がデータに適合するかをどのように知ることができますか? これは基本的に私がやったことです: > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] 42.26 41.89 38.87 43.02 39.25 40.38 42.64 36.98 44.15 44.91 43.40 [34] 49.81 38.87 40.00 52.45 53.13 47.92 …



3
コルモゴロフ-スミルノフ検定は離散分布で有効ですか?
サンプルを比較し、それが何らかの離散的な分布として分布しているかどうかを確認しています。しかし、コルモゴロフ-スミルノフが適用されるかどうかは、私は不確かです。ウィキペディアはそうではないことを暗示しているようです。そうでない場合、サンプルの分布をどのようにテストできますか?

3
非常に小さなサンプルサイズ(n = 6など)で正規性をテストすることは意味がありますか?
サンプルサイズは6です。このような場合、Kolmogorov-Smirnov検定を使用して正規性を検定するのは理にかなっていますか?SPSSを使用しました。それぞれの取得に時間がかかるため、サンプルサイズは非常に小さくなっています。それが意味をなさない場合、テストするのに意味のある最小数はいくつのサンプルですか? 注: ソースコードに関連するいくつかの実験を行いました。サンプルは、ソフトウェアのバージョン(バージョンA)でのコーディングに費やされた時間です。 実際には、別のバージョンのソフトウェア(バージョンB)でのコーディングに費やされたサンプルサイズ6があります。 コードバージョンAで費やされた時間がコードバージョンBで費やされた時間と異なるかどうかをテストするために、1サンプルt検定を使用して仮説テストを行いたいと思います(これは私のH1です)。1サンプルのt検定の前提条件は、テストするデータを正規分布する必要があることです。そのため、正常性をテストする必要があります。

3
Kolmogorov-Smirnovテストが機能するのはなぜですか?
2標本KS検定について読んで、私は正確に理解し、それが何をしているのかが、私は理解していないそれが動作する理由。 つまり、すべての手順に従って経験分布関数を計算し、2つの間の最大差を見つけてD統計値を見つけ、臨界値を計算し、D統計値をp値に変換することができます。 しかし、なぜこの2つが実際に2つのディストリビューションについて何かを教えてくれるのか、私にはわかりません。 誰かがロバを飛び越えてどれだけ速く逃げるかを数える必要があることを簡単に教えてくれるかもしれません。速度が2 km / hr未満の場合は、帰無仮説を拒否します。確かに私はあなたが私に言ったことをすることができますが、そのどれが帰無仮説と関係がありますか? 2サンプルKSテストが機能するのはなぜですか?ECDF間の最大差の計算は、2つの分布の違いと何の関係がありますか? どんな助けも大歓迎です。私は統計学者ではないので、可能であれば私は馬鹿だと仮定します。

1
離散データを使用したコルモゴロフ-スミルノフ:Rでのdgof :: ks.testの適切な使用とは?
初心者の質問: 2つの個別のデータセットが同じ分布に由来するかどうかをテストします。コルモゴロフ・スミルノフのテストが提案されました。 Conover(Practical Nonparametric Statistics、3d)は、コルモゴロフ-スミルノフ検定をこの目的に使用できると言っているようですが、その動作は離散分布で「保守的」であり、ここで何を意味するのかわかりません。 別の質問に対する DavidRのコメントは、「... KS統計に基づいてレベルα検定を作成することはできますが、シミュレーションなどによって重要な値を取得する他の方法を見つける必要があります。」 dgof Rパッケージ(article、cran)のks.test()のバージョンは、statsパッケージのks.test()のデフォルトバージョンにはない機能を追加します。とりわけ、dgof :: ks.testには次のパラメーターが含まれています。 simulate.p.value:離散適合度検定のみのために、モンテカルロシミュレーションによってp値を計算するかどうかを示す論理値。 Simulate.p.value = Tの目的は、DavidRが提案することを達成することですか? たとえそうであっても、2サンプルテストにdgof :: ks.testを本当に使用できるかどうかはわかりません。連続分布に対して2サンプルのテストのみを提供しているように見えます。 yが数値の場合、xとyが同じ連続分布から引き出されたという帰無仮説の2標本検定が実行されます。 または、yは連続(累積)分布関数(またはそのような関数)を指定する文字列、または離散分布を与えるecdf関数(またはクラスstepfunのオブジェクト)にすることができます。これらの場合、1サンプルテストは、xを生成した分布関数が分布y ...であるというヌルから実行されます。 (背景の詳細​​:厳密に言えば、基礎となる分布は連続的ですが、データは少数のポイントに非常に近い傾向があります。各ポイントはシミュレーションの結果であり、-1から10までの実数の平均です。 1.シミュレーションの終わりまでに、これらの数値はほぼ常に.9または-.9に非常に近いため、平均値はいくつかの値に集中し、それらを離散として扱います。シミュレーションは複雑で、データが既知の分布に従うと考える理由。) 助言?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
Rのコルモゴロフ-スミルノフ検定について
コルモゴロフ-スミルノフのテスト関数の出力を理解しようとしています(2つのサンプル、両面)。これは簡単なテストです。 x <- c(1,2,2,3,3,3,3,4,5,6) y <- c(2,3,4,5,5,6,6,6,6,7) z <- c(12,13,14,15,15,16,16,16,16,17) ks.test(x,y) # Two-sample Kolmogorov-Smirnov test # #data: x and y #D = 0.5, p-value = 0.1641 #alternative hypothesis: two-sided # #Warning message: #In ks.test(x, y) : cannot compute exact p-value with ties ks.test(x,z) #Two-sample Kolmogorov-Smirnov test #data: x and z …

4
どちらを信じるべきか:コルモゴロフ-スミルノフ検定またはQQプロット?
連続データのデータセットがパラメーターshape 1.7およびrate 0.000063のガンマ分布に従うかどうかを判断しようとしています。====== 問題は、Rを使用してデータセット QQプロットを作成するxxxして、理論的な分布ガンマ(1.7、0.000063)に対すると、経験データがガンマ分布とほぼ一致することを示すプロットが得られることです。ECDFプロットでも同じことが起こります。 私はコルモゴロフ-スミルノフ検定を実行するときしかし、それは私に不当に小さな与えの-値&lt; 1 %に。ppp&lt;1%&lt;1%<1\% どちらを信じるべきですか?グラフィック出力またはKSテストからの結果?

1
Kolmogorov-Smirnovを使用して2つの経験的分布を比較できますか?
Kolmogorov-Smirnov適合度検定を使用して、1つの経験的分布を事前に指定された参照分布と比較するのではなく、2つの経験的分布を比較して、それらが同じ基礎となる分布に由来するように見えるかどうかを判断しても大丈夫ですか? これを別の方法で聞いてみましょう。1つの場所でいくつかの分布からN個のサンプルを収集します。別の場所でM個のサンプルを収集します。データは連続的です(各サンプルは0から10までの実数です)が、正規分布ではありません。これらのN + Mサンプルがすべて同じ基礎となる分布に由来するかどうかをテストしたいと思います。この目的のためにコルモゴロフ-スミルノフ検定を使用するのは合理的ですか? F0F0F_0NNNF1F1F_1MMMF0F0F_0F1F1F_1D = supバツ| F0(x )− F1(x )|D=supバツ|F0(バツ)−F1(バツ)|D = \sup_x |F_0(x) - F_1(x)|DDD (適合度のコルモゴロフ-スミルノフ検定は離散分布には有効ではないことを別の場所で読みましたが、これが何を意味するのか、なぜそれが真実であるのか理解できないと認めています。 ) または、代わりに何か他のものをお勧めしますか?

2
IIDサンプリングのテスト
サンプリングがIID(独立および同一分散)であることをどのようにテストまたはチェックしますか?ガウス分布および同一分布を意味するのではなく、単にIIDであることに注意してください。 そして、思い浮かぶのは、サンプルを同じサイズの2つのサブサンプルに繰り返し分割し、Kolmogorov-Smirnov検定を実行して、p値の分布が均一であることを確認することです。 そのアプローチに関するコメント、および提案を歓迎します。 バウンティを開始した後の明確化: 非時系列データに適用できる一般的なテストを探しています。

1
片側コルモゴロフ-スミルノフ検定を実行するのは理にかなっていますか?
片側KSテストを実行することは意味があり、可能ですか?そのようなテストの帰無仮説は何でしょうか?または、KSテストは本質的に両側テストですか? 私はDの分布を理解するのに役立つ答えから恩恵を受けるでしょう(私はMasseyの1951年の論文で作業しており、たとえばとが差異の上限と下限です経験的CDFの違いの非絶対値の?)D+D+D^{+}D−D−D^{-} 追加の質問:および値はどのようにして取得されますか?私が遭遇している出版物の多くは、、および CDFではなく、テーブル化された値を提示しています。D + D − D n D + D −pppD+D+D^{+}D−D−D^{-}DnDnD_{n}D+D+D^{+}D−D−D^{-} 更新:関連する質問を発見しました。片側コルモゴロフ-スミルノフ検定の帰無仮説は何ですか?、これを書く前に最初のスキャンで見落としていました。

3
私の分布は正常です。コルモゴロフ-スミルノフ検定は同意しない
私が持っているいくつかのデータの正規性に問題があります:p = .0000では正常ではないと言うコルモゴロフ検定を実行しましたが、わかりません:私の分布の歪度=-。497、尖度= -0,024 これは非常に正規に見える私の分布のプロットです... (私は3つのスコアを持っていますが、このスコアのそれぞれはコルモゴロフ検定の有意なp値で正常ではありません...私は本当に理解していません)

2
2コルモゴロフ・スミルノフ対アンダーソン・ダーリング対クラマー・フォン・ミーゼスのサンプル
2つのECDFSを比較するとき、コルモゴロフ-スミルノフ、クラマー-フォン-ミーゼス、アンダーソン-ダーリングを使用する基準は何だろうと思っていました。私はそれぞれがどのように異なるかの数学を知っていますが、ECDFデータを持っている場合、どのテストを使用するのが適切かをどのように知ることができますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.