タグ付けされた質問 「kolmogorov-smirnov」

コルモゴロフ-スミルノフ検定は、分布へのデータの適合度の検定です。変数が正規分布であるかどうかをテストするためによく使用されます。

2
ノンパラメトリック統計の本
ノンパラメトリック統計の良い本は何でしょう。導入だけでなく上級レベル。また、参照用ではなく、学習用に使用できるものも探しています。 特に、非パラメーターメソッド、非パラメーター推論、非パラメーターを評価する方法(KSテスト、テストなど)、ブートストラップなどの背後にある基本を含むことができる本を探しています。ttt

2
2つの分布を組み合わせるモデルでの適合度の測定
モデル化しようとしている二重ピークのあるデータがあり、それらを個別に処理することができないほどピーク間に十分なオーバーラップがあります。データのヒストグラムは次のようになります。 このために2つのモデルを作成しました。1つは2つのポアソン分布を使用し、もう1つは2つの負の二項分布を使用します(過剰分散を説明するため)。どのモデルがデータに正確に適合するかを判断する適切な方法は何ですか? 私の最初の考えは、コルモゴロフ・スミルノフ検定を使用して各モデルをデータと比較し、次に尤度比検定を行って、1つが非常に優れているかどうかを確認することです。これは理にかなっていますか?もしそうなら、私は尤度比検定を実行する方法を正確に知りません。カイ二乗は適切ですか、そして私にはいくつの自由度がありますか? それが役立つ場合、モデルの一部の(非常に簡略化された)Rコードは次のようになります。 ## inital data points a <- read.table("data") #create model data model.pois = c(rpois(1000000,200),rpois(500000,250)) model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5) #Kolmogorov-Smirnov test #use ks.boot, since it's count data that may contain duplicate values kpois = ks.boot(model.pois,a) knb = ks.boot(model.nb,a) #here's where I'd do some sort of likelihood ratio test # …

2
コルモゴロフ-スミルノフ2標本
コルモゴロフ–スミルノフの2標本検定を使用して分布を比較していて、 ppp-valueは、テスト統計として頻繁に報告されます。これはどのようにppp-値が決定されましたか?少なくとも得られた結果と同じくらいの結果が得られる確率だと知っていますppp値がノンパラメトリック検定であると判断された場合の値?つまり、分布のガウス変動を仮定して、ppp-値を使用して ttt-テスト。 ありがとう!

2
一貫性のない正規性テスト:Kolmogorov-Smirnov対Shapiro-Wilk
現在、私が書いたMCシミュレーションによって生成されたデータを調べています。値が正規分布していると思います。当然、私はヒストグラムをプロットし、それは妥当に見えます(私は推測しますか?): [左上:ヒストグラムdist.pdf()、右上:累積ヒストグラムdist.cdf()、下:QQプロット、data対dist] 次に、いくつかの統計的検定を使用してこれをさらに詳しく調べることにしました。(注意してくださいdist = stats.norm(loc=np.mean(data), scale=np.std(data))。)私がしたことと私が得た出力は次のとおりです: コルモゴロフ-スミルノフ検定: scipy.stats.kstest(data, 'norm', args=(data_avg, data_sig)) KstestResult(statistic=0.050096921447209564, pvalue=0.20206939857573536) Shapiro-Wilkテスト: scipy.stats.shapiro(dat) (0.9810476899147034, 1.3054057490080595e-05) # where the first value is the test statistic and the second one is the p-value. QQプロット: stats.probplot(dat, dist=dist) これからの私の結論は: ヒストグラムと累積ヒストグラムを見ることで、私は間違いなく正規分布を仮定します QQプロットを見た後も同じことが言えます(これまでにずっと良くなっていますか?) KSテストは言う:「はい、これは正規分布です」 私の混乱は次のとおりです。SW検定では、正規分布ではないことが示されています(p値は有意性よりはるかに小さくalpha=0.05、初期の仮説は正規分布でした)。これは理解できません。誰かより良い解釈がありますか?ある時点で失敗しましたか?

1
コルモゴロフスミルノフZ対マンホイットニーU小サンプルサイズn = 15?
サンプルサイズが15と小さいです。2つの独立変数、グループ1 n = 11、グループ2 n = 4の間で栄養素摂取量に違いがあるかどうかを確認したいと思います。データは正規分布していません。Mann Whitney UとKolmogorov-Smirnov Zのどちらのテストがより適切ですか?Andy FieldのSPSSを使用したDiscovering Statisticsは、KS Zは小さなサンプルサイズに使用する必要があると述べています。 Kolmogorov-Smirnov Z:第5章では、サンプルが正規分布母集団からのものであるかどうかをテストするKolmogorov–Smirnovテストに出会いました。これは別のテストです!実際、2つのグループが同じ母集団から引き出されているかどうかをテストします(その母集団が何であるかに関係なく)。つまり、これはマンホイットニー検定とほぼ同じことを意味します。ただし、このテストは、サンプルサイズがグループあたり約25未満の場合、マンホイットニー検定よりも優れたパワーを持つ傾向があるため、そうである場合は選択する価値があります。 また、p値とともに摂取量を報告する場合、データはノンパラメトリックなので、平均値と標準偏差または中央値とIQRを使用する必要がありますか? 何かアドバイスをいただければ幸いです。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
Kolmogorov-Smirnov検定を使用して、2つの分布の等価性を直接検定できますか?
コルモゴロフ・スミルノフ(KS)検定に2つの片側検定(TOST)アプローチをどのように使用できるかについて他の質問についても話しましたが、検定統計を直接使用してその2つを示すことができるかどうか疑問に思いました分布は似ていましたか? 私が理解している限り、KS検定統計量は2つのCDF間の最大の違いを表しており、1サンプルバージョンは本来適合度検定として使用されています。これは、経験的分布が信頼区間の外側を横切るとき(つまり、いずれか1つの点が、それらがテストしている仮想分布から遠すぎる場合)として[1]に示されています。 2つのサンプルのバージョンをよく使用して、2つの分布が互いに大きく異なることを示す場合、1つのサンプルのバージョンと同様に、を使用して信頼区間の計算を反転できますか?は代わりに使用します。これは、2つの分布間の最大差が有意に類似していることを示す方法としてですか?(1 - α )= 0.95(1 - α )= 0.05(1−α)=0.05(1-\alpha) = 0.05(1 - α )= 0.95(1−α)=0.95(1-\alpha) = 0.95 [1]マッセイF.「適合度のコルモゴロフ-スミルノフ検定」、Journal of the American Statistical Association、vol。46、いいえ。253、68-78ページ、1951年3月

1
コルモゴロフ・スミルノフ検定?
小さな海鳥への船の往来による妨害について研究しています。焦点の合った動物を一定時間観察し、観察中に水から飛んだかどうかを記録しました。この特定の鳥は、邪魔されていないとき(時間の約10%)、高い確率で飛ぶことはありません。事後、最も近い船までの距離をすべての観測に追加しました(関心のある船にはGPSロケーターが5秒ごとにポイントを記録していました)。 すべての観測と、鳥が水から飛んだ観測の累積分布関数を、最も近い船までの距離の関数としてプロットしました。予想通り、鳥が飛んだ観測の大部分は、船が近いときに観測されました。 コルモゴロフ-スミルノフ検定を使用して、飛行観測と総観測の分布に統計的差異があるかどうかをテストできますか?私の考えでは、これらの2つの分布が異なる場合、船の距離が飛行に影響を与えていると考えられます。飛行観測は観測全体のサブセットであるため、これらの分布関数は独立していないので心配です。 考え? このサイトでもう少し読んだ後、飛行が発生した観測の分布(F)が発生しなかった観測(NF)の分布に対して独立しているため、これらの分布をテストできると思います。これらの分布が同じF = NFの場合、(F)と(TOT =すべての観測値)の分布は、(F)の分布がそれ自体と等しく、(F)+ (T)=(TOT)。正しい? 更新:2014年2月12日 @Scortchiの提案に従って、ロジスティック回帰フレームワークで飛行の発生率と最も近い船までの距離の関係を調査しました。存在するわずかな関係(負の勾配)がありましたが、p値は有意ではなく、真の勾配がゼロである可能性があることを示唆しています。見かけ上の統計(ecdfプロットを含む)に基づいて、船が行動に影響を与えていなかったときに、多くの観察によって接近した船の影響がおおわれているのではないかと思いました。次に、セグメント化されたRパッケージを使用しました(http://cran.r-project.org/web/packages/segmented/segmented.pdf)モデルのブレークポイントを探して見つけます。プログラムは、船から2.6 kmでデータを分割し、2つの個別の係数をフィッティングすることが、単一の係数モデルよりも優れていることを発見しました。接近船進入の勾配の係数は負であり、船が約2.6 km(p値<0.001)まで飛行応答に影響を与えることを示唆しています。2番目の勾配の係数はわずかに正でしたが、p値は0.05アルファレベルで有意ではありませんでした(p値= 0.11)。したがって、要約すると、セグメント化された回帰直線は、飛行確率が増加するしきい値の差を検出できました。船が2.6 kmを超えている場合の飛行確率の推定値は0.11です。ふさわしいことに、私は調査湾に船がなかったときに79羽の鳥を観察しました(> すべての提案をありがとう。この質問と提案と回答が他の人に役立つことを願っています。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.