分割表:実行するテストとタイミング


17

私は、古くからのカイ二乗対フィッシャーの正確なテストの議論に関するこの議論の延長を見て、少し範囲を広げたいと思っています。分割表には相互作用のテストが数多くあり、頭を回転させるのに十分です。私は、どのテストをいつ使用するべきか、そしてもちろん、あるテストが別のテストよりも優先される理由についての説明を取得したいと思っています。

私の現在の問題は、古典的な場合ですが、Rでさまざまなソリューションを実装するためのヒントと同様に、次元の高さに関する回答は大歓迎です。n×m

以下に、私が知っているすべてのテストをリストしました。エラーを公開することで修正できることを願っています。

  • χ2。古いスタンバイ。ここには3つの主要なオプションがあります。

    • 2x2テーブルのRに組み込まれた修正:「すべての差から半分が差し引かれます。」私はいつもこれをやるべきですか?|OE|
    • " "テスト、Rでこれを行う方法がわからないN1χ2
    • モンテカルロシミュレーション。これは常に最高ですか?これを行うとRがdfをくれないのはなぜですか?
  • フィッシャーの正確検定

    • 従来、セルが4未満になると予想されていましたが、このアドバイスに異論があるようです。
    • 辺縁が固定されているという(通常は誤った)仮定は、本当にこのテストの最大の問題ですか?
  • バーナードの正確検定

    • 別の正確なテスト、私はそれを聞いたことがないことを除いて。
  • ポアソン回帰

    • glmsについて私を常に混乱させる1つのことは、この重要性テストを正確に行う方法です。ネストされたモデルの比較を行うのが最善ですか?特定の予測子のWaldテストはどうですか?
    • 本当に常にポアソン回帰を行うべきですか?これとテストの実際の違いは何ですか?χ2

回答:


13

これは良い質問ですが、大きな質問です。私は完全な答えを提供できるとは思いませんが、私は思考のために食べ物を捨てます。

まず、一番上の箇条書きの下で、あなたが言及している修正は、連続性に対するYatesの修正として知られています。問題は、離散推論統計を計算することです: (分割表で表されるインスタンスの有限数で、この統計を取ることができる可能実現値の有限数である。)このような事実にもかかわらず、それが比較される連続的な参照分布(すなわち。分布自由度の

χ2=(OE)2E

χ2 (r1)(c1))。これは必然的に、あるレベルでの不一致につながります。特に小さなデータセットでは、一部のセルの期待値が5未満の場合、p値が小さすぎる可能性があります。イェーツの補正はこれを調整します。

皮肉なことに、同じ根本的な問題(離散的連続的ミスマッチ)が高すぎる p値につながる可能性があります。具体的には、p値は従来、極端またはそれ以上のデータを取得する確率として定義されています。観測データより。連続データでは、正確な値を取得する確率は非常に小さいため、実際にはより極端なデータの確率があります。ただし、離散データでは、あなたと同じようにデータを取得する有限の確率があります。自分よりも極端なデータを取得する確率のみを計算すると、名目上のp値が低すぎて(タイプIエラーが増加します)、あなたと同じデータを取得する確率を含めると、名目上のp値が高すぎます(これにより、タイプIIエラーが増加します)。これらの事実は、中間p値のアイデアを促します。このアプローチでは、p値はデータよりも極端なデータの確率プラス半分 あなたと同じデータの確率。

あなたが指摘するように、分割表データをテストする多くの可能性があります。さまざまなアプローチの長所と短所の最も包括的な取り扱いはこちらです。その論文は2x2のテーブルに固有のものですが、それを読むことで分割表データのオプションについて多くを学ぶことができます。

また、モデルを真剣に検討する価値があると思います。カイ2乗のような古いテストは迅速で簡単であり、多くの人に理解されていますが、適切なモデルを構築することで得られるほどデータを包括的に理解することはできません。分割表の行[列]を応答変数、列[行]を説明変数/予測変数と考えるのが合理的である場合、モデリングアプローチは非常に簡単に実行できます。たとえば、2行しかない場合、ロジスティック回帰モデルを構築できます。複数の列がある場合、参照セルコーディング(ダミーコーディング)を使用してANOVAタイプのモデルを作成できます。一方、3行以上の場合、多項ロジスティック回帰同じ方法で使用できます。行に固有の順序がある場合、順序ロジスティック回帰により多項式よりも優れたパフォーマンスが得られます。私の意見では、対数線形モデル(ポアソン回帰)は、3次元以上の分割表を持たない限り、おそらく関連性が低くなります。

これらのトピックを包括的に扱うための最良の情報源は、Agrestiの本です。彼の本格的な扱い(より厳格な)、彼のイントロの本(より簡単ですが、包括的で非常に良い)、あるいはおそらく序文の本です。

更新: 可能性のあるテストのリストを完全にするために、尤度比テスト(「」と呼ばれることが多い)を追加できることがわかりました。それは: これは、カイ二乗として配布され、そしてほとんどの場合、同じ判断をもたらします。通常、2つの統計の実現値は似ていますが、わずかに異なります。与えられた状況でどれがより強力になるかという問題は非常に微妙です。いくつかの分野では、これが伝統によるデフォルトの選択であると私は思います。私は必ずしも従来のテストよりもそれが使用されていると主張するわけではありません。私が言うように、私は完全性のためにそれをリストしています。 G2-test

G2=Oln(OE)


1
それは根本的な問題の素晴らしい説明でした、ありがとう!また、アグレスティのテキストは素晴らしいリソースであると過去に言われたことがありますので、チェックしてみます。
JVMcDonnell

4

私の見地からできる限り最善の方法であなたの質問のいくつかに対処しようとします。最初に、Fisher-Irwin Testは、Fisherの厳密検定の単なる別名です。計算量が多い場合があることを除けば、一般にフィッシャーテストを使用することを好みます。このテストに問題がある場合、限界合計を調整しています。このテストの利点は、帰無仮説の下で、観測されたテーブルと同じ周辺合計を持つ分割表のセットが超幾何分布を持つことです。一部の人々は、同じ限界合計を持つテーブルへの考慮を制限するための理論的根拠を見ていないと主張します。

ピアソンのカイ2乗検定は、分割表の関連付けをテストするために非常に一般的に使用されます。他の多くのテストと同様に、近似値であるため、有意水準は必ずしも正確ではありません。Cochranは、一部のセルが非常にまばらな場合(たとえば、一部のセルに5ケース未満しか含まれていない場合)の小さなサンプルでは、​​近似が不十分であることを示しました。

他の多くの近似テストがあります。通常、SASを使用してフィッシャーのテストを適用すると、これらすべてのテストから結果が得られ、通常はほぼ同じ結果が得られます。しかし、フィッシャーの検定は常に限界合計を条件としています。

ポアソン回帰に関しては、カテゴリー変数をセルの合計に関連付けるモデルです。他のモデルと同様に、一連の仮定に依存します。最も重要なのは、セルカウントがポアソン分布に従うことです。これは、カウントの平均数がその分散に等しいことを意味します。これは通常、細胞数の分布には当てはまりません。過分散(分散が平均よりも大きい)の場合、負の二項モデルがより適切な場合があります。


「Fisher-Irwin Testは、Fisherの正確なテストの単なる別名です」...ああ、これにより、このコメントの混乱が少なくなりました。
JVMcDonnell

3
あなたの答えは、これらのことをいつ行うべきかについての私の混乱を本当に軽減していません。私が聞きたかったことの1つは、モンテカルロシミュレーションや修正などによってchi ^ 2の問題をどの程度解決できるかを考えたことです。またはそれがglmsに取って代わられる程度。だから、これを少し開いたままにして、もっと噛むことができるかどうかを確認します。しかし、少し後に誰も体重が入らない場合、あなたの答えを受け入れます。
JVMcDonnell

フィッシャーとカイ2乗については、カイ2乗をいつ使用できるかを説明したと思います。常に限界合計を条件とするフィッシャーの考えを受け入れた場合、フィッシャーの検定は常に適用可能です。しかし、それを受け入れなければ、無条件のテストを選択する必要があると思います。他の利用可能な一連のテストについては、それらのプロパティについて何も知らないため、それらをいつ使用するかを本当にアドバイスすることはできません。フォームの経験結果が通常密接に一致しているため、重要なケースを見てきました。
マイケルR.チャーニック

フィッシャーが「常に限界合計を条件にすべきだ」と思ったのは本当ですか?この仮定は、限界合計が固定されている場合にのみ有効です。お茶の試飲の女性の例では、女性は5人がミルクが先で、5人がミルクが最後であることを知っています。しかし、実験では、限界を強制する力がないことがより一般的です。2枚のコインをそれぞれ10回裏返す場合を考えてみましょう。5つの頭がコインの周りを転がるとき、周辺を維持するために尾を与え始めません。そのような場合、フィッシャーズは非常に保守的であることが文書化されています。だからこそ、私は代替案に興味があります。
JVMcDonnell

はい。フィッシャーは、与えられたデータからの情報を使用する参照分布を選択すると信じていたと理解しています。したがって、彼は、どのように周辺の合計が観測データに由来するかに関係なく、データの制約に従う特定の限界合計、つまり与えられた周辺の合計の下で起こったデータとのみ比較すべきだと考えます。フィッシャーが持っていた他のアイデアと同様に、これは議論の余地がありました。
マイケルR.チャーニック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.