2つのデータグループがあります。それぞれが複数の変数の異なる分布を持つ。これら2つのグループの分布が統計的に有意な方法で異なるかどうかを判断しようとしています。データは生の形式であり、それぞれに頻度カウントがある個別のカテゴリを扱いやすいようにビニングされています。
これらの2つのグループが大幅に異なるかどうかを判断するには、どのテスト/手順/方法を使用する必要があり、SASまたはR(またはオレンジ)でそれを行うにはどうすればよいですか?
2つのデータグループがあります。それぞれが複数の変数の異なる分布を持つ。これら2つのグループの分布が統計的に有意な方法で異なるかどうかを判断しようとしています。データは生の形式であり、それぞれに頻度カウントがある個別のカテゴリを扱いやすいようにビニングされています。
これらの2つのグループが大幅に異なるかどうかを判断するには、どのテスト/手順/方法を使用する必要があり、SASまたはR(またはオレンジ)でそれを行うにはどうすればよいですか?
回答:
これには、2サンプルのコルモゴロフ-スミルノフ検定などが必要だと思います。2サンプルコルモゴロフ–スミルノフ検定は、2つのサンプルの経験分布関数(ECDF)の違いの比較に基づいています。つまり、2つのサンプルの位置と形状の両方に敏感です。また、多変量形式に一般化します。
このテストは、Rのさまざまなパッケージのさまざまな形式で検出されるため、基本的に習熟している場合は、そのうちの1つ(fBasicsなど)をインストールし、サンプルデータで実行するだけです。
proc npar1way
。Rには、に加えてks.test()
、nortest
他のいくつかの調整テストを提供するパッケージがあります。
私はコンサルタントの愚かな質問をするつもりです。これらの分布が統計的に有意な方法で異なるかどうかを知りたいのはなぜですか?
使用しているデータは、母集団またはプロセスからの代表的なサンプルであり、それらの母集団またはプロセスが異なるという証拠を評価したいですか?もしそうなら、統計的検定はあなたにぴったりです。しかし、これは私にとって奇妙な質問のようです。
または、真実に関係なく、それらの集団またはプロセスが異なるかのように振る舞う必要があるかどうかに興味がありますか?次に、損失関数、理想的には意味のある単位を返す関数を決定し、(a)母集団を異なるものとして扱い、(b)それらを同じものとして扱うときに予想される損失を予測する方が良いでしょう。または、多少保守的なポジションを採用したい場合は、損失分布の分位を選択できます。
相対的な分布方法を適用することに興味があるかもしれません。1つのグループを参照グループ、もう1つのグループを比較グループと呼びます。確率-確率プロットの作成と同様の方法で、密度の比率である相対CDF / PDFを作成できます。この相対密度は推論に使用できます。分布が同一である場合、均一な相対分布が期待されます。均一性からの逸脱を調査および調査するためのグラフィカルおよび統計ツールがあります。
より良い感覚を得るための良い出発点は、Rで相対分布法を適用し、Rでreldistパッケージを適用することです。詳細については、ハンドコックとモリスによる社会科学の相対分布法の本を参照する必要があります。関連する技術をカバーする著者による論文もあります。
2つの分布の差の1つの尺度は、「最大平均不一致」基準です。これは、基本的に、再現カーネルヒルベルト空間(RKHS)の2つの分布からのサンプルの経験的平均の差を測定します。このペーパー「2つのサンプル問題のカーネルメソッド」を参照してください。
SAS / R / Orangeの使用方法はわかりませんが、必要なテストはカイ2乗テストのようです。