タグ付けされた質問 「kolmogorov-smirnov」

コルモゴロフ-スミルノフ検定は、分布へのデータの適合度の検定です。変数が正規分布であるかどうかをテストするためによく使用されます。

1
2つの経験的な離散分布の差をテスト
経験的分布として使用している離散分布からいくつかの大きなサンプルがあるテストデータがあります。分布が実際に異なるかどうか、実際に異なる分布の平均の違いは何かをテストしたいと思っています。 それらは離散分布なので、基礎となる連続分布の仮定により、コルモゴロフ-スミルノフ検定は無効であると理解しています。カイ二乗検定は、分布が実際に異なるかどうかの正しいテストでしょうか? 平均の違いにどのテストを使用しますか?より良いアプローチは、分布からサンプリングして差を取り、次に差の分布に対して分析を実行することですか?

3
コルモゴロフ-スミルノフ検定を使用して分布パラメーターを推定できますか?
コルモゴロフ-スミルノフ検定を使用して、サンプルからパラメーターが推定された分布の適合度を検定するべきではないことを読みました。 サンプルを2つに分割し、前半をパラメーター推定に使用し、後半をKSテストに使用するのは理にかなっていますか? 前もって感謝します

1
修正されたタイデータのコルモゴロフスミルノフ検定に代わる方法はありますか?
2つのサンプル(コントロールと処理済み)から大量のデータを取得しました。各サンプルには、Rで有意性検定を受ける数千の値が含まれています。トンと彼らは関係を持っています。分布は不明であり、コントロールと処理された分布の形状は異なる可能性があります。そのため、ノンパラメトリック検定を使用して、サンプル全体の違いが10の異なる要因で有意であるかどうかを比較します。 コルモゴロフとスミルノフのテストを使用することを考えましたが、それは本当に関係に適していません。私は最近、KSテストのブートストラップバージョンを実行し、関係を許容するMatchingと呼ばれる新しいRライブラリを見つけました。これは本当に良いアイデアですか、代わりに別のテストを使用する必要がありますか?そして、p値を調整する必要がありますか?

1
コルモゴロフ–スミルノフ検定対t検定
2つのサンプルKSテストの解釈、および2つのグループ間の通常のtテストとの違いを理解するのに多少の困難があります。 男性と女性に何らかのタスクを実行させ、そのタスクからいくつかのスコアを収集するとします。私の究極の目標は、そのタスクで男性と女性のパフォーマンスが異なるかどうかを判断することです したがって、私ができることの1つは、2つのグループ間でテストを実行することです。もう1つできることは、男性と女性のECDFを計算してプロットし、2サンプルのKSテストを実施することです。私はこのようなものを手に入れます: KSテスト KS検定の帰無仮説は、2セットの連続スコア分布が同じ母集団から得られるというものです KSテストを実行すると、D = 0.18888、p-value = 0.04742が得られます 最初に、結果の解釈が正しいことを確認します。ここでは、帰無仮説を棄却し、男性と女性のスコア分布は異なる母集団に由来すると言います。または、言い換えれば、男性と女性のスコアの分布は互いに異なります。 より具体的には、男性はこのタスクでより低いスコアを達成する可能性が高い傾向があり、それはプロットから解釈すると2つの性別の違いです T検定 テストでは、スコア変数で男性と女性の平均値の差をテストします。 このタスクで男性のパフォーマンスが女性より悪い場合を想像してみましょう。その場合、男性のスコアの分布は低い平均に集中し、女性のスコアの分布は高い平均に集中します。男性は低いスコアを達成する確率が高いため、このシナリオは上記のプロットと一致します。 t検定が有意であると判明した場合、私は女性が平均して男性よりも有意に高いスコアを獲得すると結論付けます。または、人口の観点では、女性のスコアは、男性の人口よりも平均が高い人口から引き出されます。これは、異なる人口から得られたKSの結論と非常によく似ています。 違いは何ですか? したがって、KSとtの両方のテストケースで説明する結論は同じです。男性は女性に比べて成績が低い。それで、あるテストを他のテストよりも使用する利点は何ですか?KSテストを使用して得られる新しい知識はありますか? 私が見ているように、分布が低い平均を中心とする男性と高い平均を中心とする女性が、有意なt検定の原因です。しかし、そのまったく同じ事実により、男性はより低い値をスコアリングする確率が高くなり、プロットが上記のようになり、重要なKSテストが行​​われます。そのため、両方のテストの結果には同じ根本原因がありますが、KSテストでは分布の平均以上のものを考慮し、分布の形状も考慮するが、原因を解析することは可能です。テスト結果からの重要なKSテストの では、テスト時にKSテストを実行することの価値は何ですか?そして、この質問のt検定の仮定を満たすことができると仮定しましょう

2
コルモゴロフ–スミルノフ検定の単純な等価性検定バージョンはありますか?
コルモゴロフ–スミルノフ検定では、2つの分布が少なくとも研究者が指定したレベルで異なるという否定論的帰無仮説をテストするために、2つの片側同等性検定(TOST)がフレーム化されていますか? TOSTではない場合、他の形式の同等性テストですか? ニック・スタウナーは、確率的同等性の帰無仮説、およびより制限的な仮定で、同等の中央値について、他のノンパラメトリックTOST同等性テストがあることを賢明に指摘しています(すでに知っているはずです;)。

3
二次元コルモゴロフ・スミルノフ
いくつかの2次元Kolmogorov-Smironovテストを実行して、2次元分布が参照に適合するかどうかを判断したいと思います。 比較的簡単に使用できるパッケージまたはアプリケーションはありますか?または、望ましい別のアルゴリズムがありますか?基本的な統計知識しかありません。

3
クラスタリング確率分布-メソッドとメトリック?
いくつかのデータポイントがあり、それぞれに5つのベクトルの凝集した離散結果が含まれ、各ベクトルの結果は異なる分布によって生成されます(特定の種類は定かではありませんが、私の最良の推測はワイブルで、形状パラメーターは指数関数の周りで変化します)法律(1〜0、大体)。) K-Meansなどのクラスタリングアルゴリズムを使用して、5つのコンポーネント分布の属性に基づいて各データポイントをグループに入れたいと考えています。これらの目的に適した確立された距離メトリックがあるかどうか疑問に思っていました。これまでに3つのアイデアがありましたが、私は経験豊富な統計学者ではありません(データマイニングコンピューター科学者の始まりです)。 私が扱っている分布の種類が正確にはわからないので、問題に対する私の総当たり的なアプローチは、各分布(1ポイントあたり5つ)をそれぞれの個別のデータ値に分割することでした(I padそれぞれが同じ長さに対応し、最後にゼロが付いています)、これらの各値をデータポイント自体の個別の属性として使用します。PDFとCDFの両方について、これらの属性に基づくメトリックとしてマンハッタン距離とユークリッド距離の両方を使用してみました。 繰り返しますが、どのような分布があるのか​​わからないので、全体の分布間の距離を測定する場合、KSテストなどの分布間でペアである種のノンパラメトリックテストを使用できると考えました、特定の分布が異なるPDFによって生成された可能性を見つけるため。マンハッタン距離を使用する最初のオプション(上記)は、このアプローチを使用して得られるものの一種の上限になると考えました(KS統計はCDFの差の最大絶対値であり、マンハッタン距離はPDFの差の絶対値の合計)。次に、おそらくユークリッド距離を使用して、各データポイント内で異なるKS統計値またはP値を結合することを検討しましたが、これらの値のすべての最大値を取得することもできます。 最後に、分布の形状についてほとんど解釈できないものを使用するために、ワイブル曲線に適合するように分布のパラメーターを推定しようと考えました。次に、ワイブル分布の2つのパラメーター、ラムダとk(スケールと形状)の違いに基づいて分布をクラスター化できます。おそらく、これらのパラメーターの分散またはある種のものに従って正規化されます。これは、パラメーターを正規化する方法のアイデアがあると思った唯一のケースです。 それで、私の質問は、分布のクラスタリングのためにどのような尺度/方法をお勧めしますか?私はこれらのどれでも正しい軌道に乗っていますか?K-Meansは使用するのに適したアルゴリズムでもありますか? 編集:データの明確化。 各データポイント(Objクラスター化する各オブジェクト)には5 vectors、実際には文字通りデータが含まれています。これらのオブジェクトが入ることができるフェーズは正確に5つあることを知っています。(単純化のために)各ベクトルはであると言いますlength N。 これらのベクターの各々は(それを呼び出すvector i)整数の確率分布であるx-values各対応するY値が測定される確率を表し、N、スルー1のvalue x中phase iのオブジェクトのをObj。Nは、オブジェクトの任意のフェーズで測定する予定の最大x値です(これは実際の分析では固定値ではありません)。 これらの確率は次の方法で決定します。 私はシングルを取り、各トライアルで測定を行うためObjにそれを入れました。各測定は単一の整数です。これは、単一オブジェクトの5つのフェーズのそれぞれに対して、そして各オブジェクトに対して順番に行います。単一のオブジェクトの生の測定データは次のようになります。phase ik trials ベクトル1. [90、42、30、9、3、4、0、1、0、0、1] ベクトル2。[150、16、5、0、1、0、0、0、0、0、0] ... ベクトル5. [16、... ...、0] 次に、与えられたベクトル内の測定の総数に関して、各ベクトルを独自に正規化します。これにより、そのベクトルの確率分布が得られます。対応する各y値は、で測定さvalue xれる確率を表しphase iます。

3
コルモゴロフ・スミルノフ検定の複数サンプル版または代替品はありますか?
1つのプロットが処理を受け、もう1つのプロットがコントロールを受けた6組のプロットで、木のサイズ分布を比較しています。プロットの各ペアでコルモゴロフ-スミルノフ検定を使用すると、範囲がからことがわかります。KSテストのマルチサンプル拡張など、すべてのレプリケートを一緒に処理するための適切な方法がありますか、または適切なフォローアップテストがありますか?または、「2組のプロットではサイズ分布が大幅に異なり)、1組のプロットではわずかに()」などのように結論付ける必要があります。ppp0.00037070.00037070.00037070.750.750.75(p &lt; 0.05(p&lt;0.05(p < 0.05p = 0.59p=0.59p = 0.59

2
Rでの1標本Kolmgorov-Smirnov検定における「関係は存在すべきではない」
私はコルモゴロフ・スミルノフ検定を使用して、RでのMYDATAの正規性をテストします。これは私が行うことの例です ks.test(MYDATA,"pnorm",mean(MYDATA),sd(MYDATA)) ここにRが私に与えた結果があります: data: MYDATA D = 0.13527, p-value = 0.1721 alternative hypothesis: two-sided Warning message: In ks.test(MYDATA, "pnorm", mean(MYDATA), sd(MYDATA)) : ties should not be present for the Kolmogorov-Smirnov test 問題があると思いますが、この警告の「関係」とはどういう意味ですか?

2
ヒストグラムが釣鐘型の曲線を示している場合、データは正規分布していると言えますか?
私は回答者の年齢のヒストグラムを作成し、非常に良い釣鐘型の曲線を何とか得て、分布は正常であると結論づけました。 次に、SPSSでn = 169の正規性検定を実行しました。Kolmogorov-Smirnov検定のp値(Sig。)は0.05未満なので、データは正規性の仮定に違反しています。 なぜこのテストでは年齢分布が正規ではないことが示されますが、ヒストグラムは釣鐘型の曲線を示しましたが、これは私の理解からは正常ですか?どちらの結果に従うべきですか?

2
二分変数と連続変数の間の相関
私は二分変数と連続変数の間の相関関係を見つけようとしています。 これに関する私の最初の作業から、私は独立したt検定を使用する必要があることを発見しました。その前提条件は、変数の分布が正規でなければならないことです。 正規性をテストするためにKolmogorov-Smirnov検定を実行したところ、連続変数が非正規であり、歪んでいることがわかりました(約4,000データポイント)。 変数の範囲全体に対してコルモゴロフ・スミルノフ検定を行いました。それらをグループに分割してテストを実行する必要がありますか?つまり、私がrisk level(0=危険ではない、1=危険)とコレステロール値を持っている場合、次のことを行う必要があります: それらを次のように2つのグループに分けます。 Risk level =0 (Cholestrol level) -&gt; Apply KS Risk level =1 (Cholestrol level) -&gt; Apply KS それらを一緒に取り、テストを適用しますか?(データセット全体でのみ実行しました。) その後、それでも正常でない場合はどうすればよいですか? 編集: 上記のシナリオは、私が自分の問題に提供しようとした説明にすぎません。1000を超える変数と約4000のサンプルを含むデータセットがあります。それらは本質的に連続的またはカテゴリー的です。私の仕事は、これらの変数に基づいて二分変数を予測することです(たぶんロジスティック回帰モデルを考え出す)。そのため、最初の調査には、二分変数と連続変数の相関関係を見つけることが含まれると考えました。 私は変数の分布がどのようになっているかを確認しようとしていたため、t検定を試みました。ここで私は問題として正常性を見つけました。コルモゴロフ-スミルノフ検定では、これらの変数のほとんどで有意値0.00が得られました。 ここで正常性を仮定する必要がありますか?これらの変数の歪度と尖度は、ほとんどすべての場合にデータが歪んでいる(&gt; 0)ことも示しています。 以下の注記に従って、ポイントとバイセリアルの相関をさらに調査します。しかし、変数の分布についてはまだわかりません。


2
Rでのコルモゴロフスミルノフ検定の検出力を計算できますか?
Rでの両側Kolmogorov Smirnovテストの電力分析を実行することは可能ですか? 私はks.test()を使用して2つの経験的分布が異なるかどうかをテストしており、電力分析を追加しようとしています。 RでKSテストの組み込み電力分析を見つけることができませんでした。何か提案はありますか? 編集:これらはランダムに生成された分布であり、私のデータに非常に近似しています(真のサンプルサイズと指数分布の推定減衰率を使用) set.seed(100) x &lt;- rexp(64, rate=0.34) y &lt;- rexp(54,rate=0.37) #K-S test: Do x and y come from same distribution? ks.test(x,y) これらのデータは、2つの異なるグループのボディサイズの測定値です。2つのグループの分布は基本的に同じであることを示したいのですが、サンプルサイズに基づいてそれを言う力があるかどうか共同編集者から尋ねられました。ここでは指数分布からランダムに抽出しましたが、これらは実際のデータに近いものです。 これまでのところ、両側KS検定に基づくこれらの分布に有意差はないと述べました。2つの分布もプロットしました。xとyのサンプルサイズと減衰率を考えると、そのようなステートメントを作成する能力があることをどのように示すことができますか?

1
片側コルモゴロフ・スミルノフ検定からの
片側コルモゴロフスミルノフ検定のppp値を取得する方法を理解しようとしています。2標本の場合、D + n 1、n 2およびD − n 1、n 2の CDFを見つけるのに苦労しています。以下は、1つのサンプルの場合のD + nの CDFとしていくつかの場所で引用されています。D+n1,n2Dn1,n2+D^{+}_{n_{1},n_{2}}D−n1,n2Dn1,n2−D^{-}_{n_{1},n_{2}}D+nDn+D^{+}_{n} p+n(x)=P(D+n≥x|H0)=x∑j=0⌊n(1−x)⌋(nj)(jn+x)j−1(1−x−jn)n−jpn+(x)=P(Dn+≥x|H0)=x∑j=0⌊n(1−x)⌋(nj)(jn+x)j−1(1−x−jn)n−jp^{+}_{n}\left(x\right) = \text{P}\left(D^{+}_{n} \ge x | \text{H}_{0}\right) = x\sum_{j=0}^{\lfloor n\left(1-x\right)\rfloor}{ \binom{n}{j} \left(\frac{j}{n}+x\right)^{j-1}\left(1 - x - \frac{j}{n}\right)^{n-j}} また、whuber sezは、この1つのサンプルのCDFのわずかに異なる定式化があります(ここでの表記との整合性を保つために、彼の引用のtをxxxに置き換えています)。ttt 確率積分変換を使用して、ドナルドクヌースはpでの(共通の)分布を導出します。TAoCP Volume 2の57とエクササイズ17 。 (D+n≤xn−−√)=xnn∑c≤k≤x(nk)(k−x)k(x+n−k)n−k−1(Dn+≤xn)=xnn∑c≤k≤x(nk)(k−x)k(x+n−k)n−k−1\left(D^{+}_{n}\le \frac{x}{\sqrt{n}}\right)=\frac{x}{n^{n}}\sum_{c\le k\le x}\binom{n}{k}\left(k-x\right)^{k}\left(x+n-k\right)^{n-k-1} H:これは、以下のような1サンプルの場合における片側仮説に適用される0: F (X )- F 0 ≤ 0、F (xは)の経験的CDFであり、X、およびF 0は、いくつかのCDFです。0: F(x)−F0≤00: …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.