最近のコンピューターの能力を考えると、フィッシャーの正確なテストではなくカイ2乗テストを行う理由はありますか?


86

ソフトウェアがフィッシャーの正確なテスト計算を非常に簡単に行えるようになったことを考えると、理論的または実用的に、カイ2乗テストがフィッシャーの正確なテストよりも実際に望ましい状況はありますか?

フィッシャーの正確なテストの利点は次のとおりです。

  • 2x2より大きい分割表(つまり、任意のr x c表)へのスケーリング
  • 正確なp値を与える
  • 有効な最小予想セル数を持つ必要はありません

10
古き良き古典だから。すぐに絶妙なヴィンテージになります。その後も、人々がコンピューターに逆らうと、2番目の若者が生きます。
ttnphns

7
大きなテーブルでフィッシャーの正確な検定統計量を計算しようとしたことがありますか?(時間がかかりすぎます...)
whuber

22
あなたがすでに得ている良いコメントと答えに加えて、私はより良い質問が「コンピューターの力を与えて、なぜシミュレーション/置換テストをいつもしないのですか?」だと思います。
ピーター・フロム

1
@whuber C ++で(多数の)テーブルなしで(独自の)実装を行いました。秒単位で8桁までの数の数千のP値を実行します。
ミシェル

1
@Michel私は、テーブル内のセルの総数を意味しました。2 x 2テーブルでは計算は簡単ですが、テーブルが大きくなると計算が面倒になります。
whuber

回答:


61

質問を好転させることができます。通常のピアソン検定は、フィッシャーの正確検定よりもほとんど常に正確であり、計算がはるかに高速なので、なぜ誰もがフィッシャーの検定を使用するのですか?χ2

ピアソンの正確な値を得るには、予想されるセル周波数が5を超える必要があるという誤りです。非常に単純な補正が検定統計量に適用される場合、予想されるセル周波数が1.0を超える限り、検定は正確です。 P N - 1χ2PN1N


R-help、2009から

キャンベル、I。Chi-squared、およびFisher-Irwinは、2つのテーブルと小さなサンプルの推奨をテストします。2007年の医学統計 26:3661-3675。(アブストラクト

  • ...アーミテージの本の最新版では、分割表のカイ二乗検定に連続性調整を使用しないことを推奨しています。

  • E.ピアソンカイ二乗検定のピアソン修正。(N-1)/ Nの係数で元のものと異なります。

  • Cochranは、「予想される頻度が5未満」の5は任意であると指摘しました。

  • 公開された研究の結果は、比較試験のために次のよう要約できます

    1. Yateのカイ2乗検定のタイプIのエラー率は公称値よりも低く、多くの場合、公称値の半分未満です。

    2. フィッシャー・アーウィンテストは公称よりも少ないIエラー率を入力しています。

    3. Kピアソンのカイ2乗検定のタイプIのエラー率は、Yateのカイ2乗検定およびFisher-Irwin検定よりも公称に近いですが、状況によっては、公称値よりもかなり大きいタイプIの誤差が生じます。

    4. 'N-1'カイ2乗検定は、K。Pearsonの 'N'バージョンのように動作しますが、公称値よりも高い傾向は減少します。

    5. 両面アーウィンの法則を用いてフィッシャーアーウィン試験は、片側確率を倍増方法未満の保存的です。

    6. 片側確率を2倍にしたmid-P Fisher-Irwin検定は、Fisher-Irwin検定の標準バージョンよりも優れた性能を発揮し、Irwinのルールによるmid-P方法は、実際のタイプI誤差を公称レベルに近づける点でさらに優れた性能を発揮します。 ";

  • 予想される頻度が1を超える場合、「N-1」テストの強力なサポート。

  • 限界合計には有用な情報がないというフィッシャーの前提に基づいたフィッシャー試験の欠陥;

  • 非常に小さなサンプルサイズでの有用な情報のデモ。

  • Y / 2のN / 2の連続性調整は大幅な過剰補正であり、不適切です。

  • 無作為化試験での無作為化試験の使用には反論があります。

  • 最悪の場合の計算。

  • 全体的な推奨事項:予想されるすべての周波数が少なくとも1の場合は「N-1」カイ2乗検定を使用し、そうでない場合は両側検定でアーウィンのルールを使用してフィッシャーアーウィン検定を使用し、どちらかの尾からテーブルを取得するか、観察されたとおり。アントニオ・アンドレスによる編集者への手紙と27:1791-1796の著者の返信を参照してください。2008年。


クランGG、シャスターJJ。フィッシャーの正確検定はどれほど保守的ですか?2サンプルの比較二項比較試験の定量的評価。2008年の医学統計 ; 27:3598-3611。(アブストラクト

  • ...フィッシャーのテストの保守性を真に定量化した最初の論文。

  • 「FETのテストサイズは、50以前のほぼすべてのサンプルサイズで0.035未満で、100を超えるサンプルサイズでも0.05に近づいていませんでした。」;

  • 「正確な」メソッドの保守性。

  • 未回答の批判については、Mat 28:173-179、2009のStatを 参照してください


2×2

  • P

  • 無条件テストの値;

  • 編集者への手紙を参照30:890-891; 2011


1
(N-1)/ N補正を適用する方法を提案できますか?この修正を組み込んだオンライン計算機はありますか?カイ二乗検定の結果を手動で調整して、この修正を自分で行う簡単な方法はありますか?
DW

上に挙げた参考文献の1つが最善策です。
フランクハレル

1
χ2 χ2

2
何かを「正確」とラベル付けしても、そうなりません。以下の@suncoolsuによるすばらしい説明を参照してください(上記の説明もすべて見逃しているはずです)。ピアソンテストは、ピアソンが思っていたよりもさらに正確です。たとえば、citeulike.org / user / harrelfe / article / 13265687およびciteulike.org/user/harrelfe/article/13263676を参照してください。フィッシャーの「正確な」検定は、真のタイプIエラーが主張されているよりも大きくないという意味でのみ正確です。しかし、それはクレームされたものよりも小さいことが判明しているため、タイプIIのエラーはより大きくなり、電力が少なくなります。
フランクハレル

私は正確さの意味を知っています。不正確なテストで気に入らない正確な点は、タイプIエラーが公称レベルよりも高い可能性です。しかし、あなたは正しいです、私はあなたの答えと他の1(両方とも素晴らしいです)読み違える
ステファン・ローラン

47

これは素晴らしい質問です。

フィッシャーの正確検定は、フィッシャーによる実験計画の巧妙な使用の素晴らしい例の1つであり、データの条件付け(基本的には観測された行と周辺合計を含むテーブル)および確率分布を見つける際の彼の工夫(これは最良の例ではありませんが) 、より良い例についてはこちらをご覧ください)。「正確な」p値を計算するためにコンピューターを使用することは、正確な答えを得るのに確実に役立ちました。

ただし、実際にフィッシャーの正確な検定の仮定を正当化することは困難です。いわゆる「正確」は、「茶の試飲実験」または2x2分割表の場合、行の合計と列の合計、つまり限界合計が設計によって固定されているという事実に由来するためです。この仮定は実際にはめったに正当化されません。素晴らしいリファレンスについては、こちらをご覧ください

「正確」という名前は、このテストで与えられたp値が正確であると信じさせるもので、多くの場合、これらの理由により残念ながら正しくありません。

  1. 限界が設計によって固定されていない場合(実際にはほぼ毎回発生します)、p値は保守的です。
  2. テストでは離散確率分布(具体的には、超幾何分布)を使用するため、特定のカットオフでは、「正確なヌル確率」、つまりp値を計算することはできません。

実際のほとんどの場合、尤度比検定またはカイ2乗検定を使用しても、フィッシャーの正確検定とはまったく異なる回答(p値)が得られることはありません。はい、限界が固定されている場合、フィッシャーの正確検定はより良い選択ですが、これはめったに起こりません。したがって、一貫性チェックには、尤度比検定のカイ2乗検定の使用が常に推奨されます。

フィッシャーの正確検定が任意のテーブルに一般化される場合も同様の考え方が適用されますが、これは基本的に多変量超幾何確率の計算と同等です。したがって、「正確な」p値に加えて、p値に基づいてカイ二乗および尤度比分布を常に計算する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.