多重比較でいつp値を修正するのですか?


11

関連する質問が私の答えにならなかったと思います。2つ以上の分類子(機械学習)のパフォーマンスを評価します。Null仮説は、パフォーマンスは変わらないというものです。この仮説を評価するために、パラメトリック(ANOVA)テストとノンパラメトリック(Friedman)テストを実行します。それらが重要である場合、ポストホッククエストでどの分類子が異なるかを調べたいと思います。

私の質問は2つあります。

1)多重比較テスト後のp値の修正は必要ですか?「Alphafehler Kumulierung」のドイツ語版ウィキペディアサイトでは、同じデータに対して複数の仮説がテストされた場合にのみ問題が発生すると述べています。分類子(1,2)、(1,3)、(2,3)を比較すると、データは部分的にのみオーバーラップします。それでもp値を修正する必要がありますか?

2)P値補正は、t検定によるペアワイズ検定の後に使用されることがよくあります。Nemenyi(ノンパラメトリック)やTukeyのHSDテストなどの特殊な事後テストを行う場合にも必要ですか?この回答は、TukeyのHSDに「いいえ」と答えています。TukeyHSDテストは、複数の比較に対して正しいですか?。ルールはありますか、またはすべての潜在的な事後テストについてこれを調べる必要がありますか?

ありがとう!


なぜ分散分析とフリードマン検定の両方を実行するのですか?
Alexis 14

これは自動化されたテストフレームワークに関するものであり、パラメトリックな仮定が満たされない場合に、パラメトリックとノンパラメトリックの両方の代替案をレビュアーに提供する必要があります。
クリス

1
あなたが言及したオムニバステストについて:(A)データグループが独立している場合、ANOVA(パラメトリック)またはKruskal-Wallis(ノンパラメトリック)テストのいずれかを使用する必要があります。(B)グループが依存している場合(たとえば、反復測定)、反復測定ANOVA(パラメトリック)またはフリードマン(ノンパラメトリック)検定のいずれかを使用する必要があります。(クラシック)ANOVAとフリードマン検定は、その代替案が正しく聞こえないため。
GegznaV 2017年

回答:


10

質問1の回答
タイプIのエラーが発生する確率を気にする場合は、複数の比較を調整する必要があります。比喩/思考実験の単純な組み合わせが役立つ場合があります。

宝くじに当選したいと想像してください。奇妙なことに、この宝くじは、あなたに当たる0.05のチャンスを与えます(すなわち、20人に1人)。Mは、この宝くじのチケットのコストです。つまり、1回の宝くじ呼び出しの予想収益はM / 20です。不思議なことに、未知の理由で、このコストMにより、必要なだけ(または少なくとも2つ以上)の宝くじを購入できると想像してみてください。自分で「プレイすればするほど勝つ」と考えて、たくさんのチケットを手に入れます。宝くじのコールで期待されるリターンはM / 20ではなく、かなり大きいものです。「宝くじに当たる」を「タイプIのエラーを起こす」に置き換えます。

エラーを気にせず、ジェリービーンズに関する特定の漫画に繰り返し、あざけって注意を向ける人々を気にしない場合は、先に進んで、複数の比較を調整しないでください。

「家族」の概念はやや曖昧であるため、「同じデータ」の問題は家族ごとのエラー修正方法(Bonferroni、Holm-Sidákなど)で発生します。ただし、誤った発見率の手法(たとえば、ベンジャミニとホッホバーグ、ベンジャミニとユーケテリなど)には、推論のさまざまなグループにわたって結果が堅牢であるという特性があります。


質問2への回答
ほとんどのペアワイズテストでは修正が必要ですが、テストと呼ばれるものには文法的および懲戒的な違いがあります。たとえば、一部の人々は "Bonferroni t検定"(Bonferroniがt検定も多重比較のためのBonferroni調整も開発していないため、これは巧妙なトリックです)を参照しています。(1)統計テストのグループを実行することと、自分が行っている推論を効果的に理解するために複数の比較を調整することを区別したい、(2)誰かが確固たる定義に基づいて作成された新しいペアワイズテストでは、複数の比較の調整を実行できることがわかっています。α


2
包括的でユーモラスな回答(およびxkcdの参照)の場合は+1。特に、「Bonferroni-test」と「Bonferroni-correction」の間に違いがあるかどうかという、まだ言葉ではない質問にも取り組みました。それでも、私の問題の説明の観点から、多重比較の問題を説明していただけませんか?分類子の1つは、コミックにジェリービーンズがない/青/緑/ ...のグループのようなものだと理解しています。
クリス

@クリスどういたしまして...何を聞いているのかよくわかりません。はい、複数の比較が必要です。はい、値を返すペアワイズテストでFWERまたはFDR調整を実行できます(手順では通常、値を変更するか、全体的または順次に拒否レベルを変更します)。ppp
Alexis

大丈夫だと思います、ありがとうございました!宝くじの例を私のユースケースに適用するのにもう少し時間がかかるかもしれませんが、私はアイデアを得ました。
クリス

@Chrisは宝くじが単なる比喩だったことを理解しています。FWERまたはFDRメソッドの適用についてサポートが必要な場合は、Wikipediaのエントリを確認するか、関連する質問をここで検索するか、またはおそらくそれについて新しい質問をしてください。:)
Alexis
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.