独立性の検定と均質性の検定


10

私は基本的な統計コースを教えており、今日は2つのカテゴリーの独立性のカイ2乗検定と均質性の検定について説明します。これら2つのシナリオは概念的には異なりますが、同じテスト統計と分布を使用できます。均一性のテストでは、カテゴリの1つの限界合計は、設計自体の一部であると想定されます。これらは、各実験グループに対して選択された被験者の数を表します。しかし、カイ2乗検定はすべての周辺合計の条件付けを中心に展開するため、均質性の検定とカテゴリカルデータを使用した独立性の検定を区別しても、数学的影響はありません-少なくとも、この検定を使用する場合はありません。

私の質問は次のとおりです:独立性のテスト(すべての周辺がランダム変数)または同質性のテスト(周辺の1つのセットが存在する場合)に応じて、異なる分析をもたらす統計的思考または統計的アプローチの学校はありますか?デザインで設定)?

継続的なケースでは、同じ対象についてを観察し、独立性をテストするか、または異なる母集団で観察し、それらが同じ分布に由来するかどうかをテストする場合、方法は異なります(相関分析対t検定)。カテゴリカルデータが離散化された連続変数から得られた場合はどうなりますか?独立性と均質性のテストは区別できないでしょうか?X 1X 2(X,Y)(X1,X2)


2
「均質性のテスト」と「独立性のテスト」を区別する情報源を提供できますか?以前は同じだと思っていました(ウィキペディアも同じです)。これは、2方向隣接テーブルの関連付けのカイ2乗検定またはK独立標本カイ2乗比較検定とも呼ばれます。一致のカイ2乗検定とも呼ばれる1標本カイ2乗検定と混同しないでください。その中で、観測された周波数を、私たちが提供する理論的に期待される周波数に対してテストします。
ttnphns 2013年

2
@ttnphns風土病のようです。Raluca BalanとGilles Lamotheによる "Expect the Unexpected"を使用しています。昨年、Sharpe、De VeauxらがBusiness Statisticsから教えました。どちらのテキストも、その違いをよく表しています。どちらの場合も、2方向分割表があります。言うまでもなく、どちらの教科書も、分割表の効果サイズを教える価値があるとは考えていません。これは、基本的な統計コースで有用性よりも微妙に勝つ別のケースです。
Placidia 2013年

2
効果サイズの信頼区間を取得しようとした場合、違いが表示されます。
Ray Koopman 2013年

2
興味深いですね。いくつかの詳細を追加して、それを答えにしてもいいですか?
Placidia 2013年

4
条件付き/無条件のマージンの区別によって学生を拷問したいかどうかによって異なります。そうでない場合は、「2つのカテゴリ変数の独立性」が「条件付き分布の均一性」と同等であることを説明することに集中して、単一の -testを提示します。(私は通常、関連の強さを測定する真のクラマーズ低い信頼限界と一緒にそれを提示します。) Vχ2V
Michael M

回答:


4

「帰無仮説はどのように書くのですか?」と自問する必要があります。グループの中のいくつかの動作(y / n)の頻度の分割表を考えます。最初のグループを指示対象として扱うと、頻度とグループの間の関連を説明するオッズ比()があります。K K - 1 θ 私は= 1 2 ... kは- 12×kkk1θi,i=1,2,,k1

同質性の場合のように独立している場合、すべてのオッズ比が1であると想定します。つまり、条件に「はい」と応答する可能性は、グループの割り当てに関係なく、等しく可能性があります。これらの仮定が失敗した場合、少なくとも1つのグループが異なります。

H0(homogeneity):i=1k1|θi|=0

H0(independence):i=1k1|θi|=0

また、このテストは、観測/期待頻度を使用するピアソンカイ二乗検定で実行できます。これは、グループメンバーシップのインジケーター変数を調整するロジスティック回帰モデルのスコア検定です。したがって、構造的にはこれらのテストは同じであると言えます。k1

ただし、グループ化因数の性質を考慮すると、違いが生じます。この意味で、テストのコンテキストアプリケーション、またはその名前は重要です。グループは、遺伝子の有無や特性の対立遺伝子パターンなどの結果の直接の原因である場合があります。その場合、nullを拒否すると、結果問題のグループ化要因に依存すると結論付けます。

一方、同質性をテストするときは、因果関係の仮定を行うことを免れます。したがって、「グループ」が人種のような洗練された構成要素である場合(これは、遺伝的、行動的、社会経済的決定要因が原因であり、それによって引き起こされます)、「近隣の剥奪指数の異質性によって証明されるように、人種的少数派は住宅格差を経験する」などの結論を下すことができます。 。誰かが「少数民族は、下の教育を実現する低所得を獲得し、より少ない雇用得るためだけでなく、その者の」あなたが言うことができるが、言って、このような引数を反論した場合は、「私は自分のレースがいることを主張していない原因あなたがあれば、単にことを、これらの事を見て人種では、あなたは彼らの生活状態について予測を立てることができます。」

このように、依存性のテストは、潜伏因子の考えられる影響が重要であり、層別分析で処理する必要がある均質性のテストの特殊なケースです。類似のロジスティック回帰モデルで多変量調整を使用すると、このようなことが実現します。依存性のテストを実施しているとはいえ、必ずしも均一性である必要はありません。


3

ベイズ法でモデル化した場合、2つの問題には明確な違いがあります。一部の論文では、最初のケース(均一性)は「1つのマージンが固定された」サンプリングと呼ばれ、2番目のケース(独立性)は「合計テーブルが固定された」と呼ばれます。たとえば、Casellaらご覧ください。(JASA 2009)
私はこのトピックに取り組んでいますが、この区別を説明する私の論文はまだ出ていません:)


2
頻出主義の観点からも明確な違いがあります-それは漸近的には問題ではないということだけです&いずれにせよ、どちらか一方または両方のマージンを条件付けるための議論がしばしばなされます。
Scortchi-モニカの回復
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.