分布の等価性のカイ2乗検定:許容されるゼロの数はいくつですか?


10

21の異なる表現型のうち1つしか持つことができない変異体の2つのグループを比較しています。これらの結果の分布が2つのグループ間で類似しているかどうかを確認します。 「分布の等値のカイ2乗検定」を計算し、いくつかのもっともらしい結果を与えるオンライン検定を見つけました。ただし、この表にはかなりの数のゼロがあるため、この場合はカイ二乗を使用できますか?

次の表は、2つのグループと特定の表現型の数を示しています。

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1

テーブルは正しく出てこなかった。すべての奇数はグループ1からのカウントであり、すべての偶数はグループ2からのそれぞれのカウントです
Membran

あなたの質問を再フォーマットしました。テーブルは今正しいですか?
csgillespie 2010年

回答:


8

最近、そのようなテーブルでフィッシャーの「正確な」テストを実行することは完全に可能です。Stataを使用してp = 0.087を取得しました(tabi 2 1 \ 2 3 \ .... , exact。実行には0.19秒かかりました)。

以下のchlのコメントの後に編集します(コメントとして追加しようとしましたが、フォーマットできません)。

私はR 2.12.0で動作しますが、「ワークスペース」オプションをデフォルト値の200000よりも大きくする必要がありました。

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(実行時間はStataよりも少し速いですが、fisher.testという事実にもかかわらず、「ワークスペース」を使用してRの通常の意味とは異なるものを意味するエラーメッセージの意味を理解するのにかかる時間を考えると、これは疑わしい関連性がありますRのコア 'stats'パッケージの一部です。)


1
興味深いことに、フィッシャーのテストはRでクラッシュしました
chl

これ以上賛成できません、申し訳ありません。私はwkspを十分に増やしていなかったようです:)
chl

フィッシャーの「正確な」テストは実際には少し異なる質問に対処しているのではありませんか:「... 2種類の分類間の関連(偶発性)の重要性を調べるために使用されます」(wikiページ)。私の場合、2つのグループ間の表現型の分布は類似している(等しい)という仮説を確認(または反駁)しようとしました。「分布の等値のカイ二乗検定」という名前のオンラインテスト(最初の投稿を参照)を見つけたとき、それは自分の問題に
ぴったり

また、前述のバージョンのフィッシャー検定が2つの分布の比較に適していると思われる場合は、分布の均一性のチェックにも使用できます(つまり、1つのグループ内の表現型が有限数の可能な表現型の間で不均一に分布していた) ?ExcelでもCHITEST関数を使用してこれを行うことができますが、多くの表現型が5回未満しか観察されない上記のような分布がある場合はどうなりますか?
メンブラン

@Membran#1:限界合計の両方のセットに対するフィッシャーの正確なテスト条件として、少し異なる質問です。これは、私にとっては学業統計の良さのようですが、私は学界の統計学者です。(ところで、あなたがどの wikiを参照しているかを明確にすることはできますか?)@メンブレン#2:一元表の場合、条件付き正確検定を「フィッシャーの正確検定」とは呼びませんが、そのような検定は可能であるべきです。一方向のテーブルの方が簡単だと思いましたが、現在、支援するソフトウェアを見つけることができません。
ワンストップ

5

通常のガイドラインでは、予想される数は5より大きい必要がありますが、次の記事で説明するように、多少緩和することができます。

Campbell、I、カイ2乗、Fisher-Irwinによる2 x 2の表の小標本の推奨検定統計(2007)26(19):3661–3675。

Ian Campbellのホームページもご覧ください。

pchisq.test(..., sim=TRUE)

あなたの場合、予想される数の約80%が5未満で、40%が1未満であるように見えます。観察された表現型のいくつかを集計することは理にかなっていますか?


提案ありがとうございます。論理的には、表現型はそれぞれ3つの記録されたパラメーターの一意の組み合わせであるため、表現型をマージすることは不可能です。これらの各パラメータは、突然変異の結果として「上」、「下」、または「変化しない」状態を維持できるため、3 ^ 3 = 27の異なる表現型が存在する可能性があります。上記の例では、両方のグループのスコアが「0」である表現型を削除したため、21個しかありませんでした。特定の表現型の有病率はわかりますが、変異体のさまざまなグループにおけるそのような表現型の分布が類似している(または類似していない)ことを統計的に証明したいと思います。ありがとうございました!
Membran

1
@Membran Aggregationは、意味のあるものである必要はありません。好きな方法でビンを自由に組み合わせることができます。ただし、微妙な問題は、事後的な集計が疑わしいp値をキャストすることです。集計はデータから独立している必要があります。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.