クラスカル・ウォリスとマン・ホイットニーが矛盾する結果を返しているように思われる場合、どの結果を選択しますか?


10

値が10ポイントのリッカートアイテムへの応答である次のグループがあります。

g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)

したがって、私はクラスカル・ウォリスを使用してグループ内の応答間の違いを判断し、結果は次のとおりでした。

Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091

ただし、グループg1とグループg2の間で正確なマンホイットニー検定を実行すると、次のようになります。

Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797

これは、alpha = 0.05で有意差を返します。

どのテストを選択する必要がありますか。その理由は何ですか。


1
いくつかの笑いと黒と白の切り捨てのトピックについては:mchankins.wordpress.com/2013/04/21/still-not-significant-2
Hank

回答:


11

Michael Chernickの回答には同意しますが、少し強くすることができると思います。ほとんどの場合、0.05カットオフを無視します。これは、科学の多くの分野での統計の推論的な使用にはほとんど関係がないネイマン・ピアソンのアプローチにのみ関連しています。

どちらのテストも、データに帰無仮説に対する中程度の証拠が含まれていることを示しています。システムについて知っていること、および現実世界の状態についての決定(または決定不能)から生じる結果に照らして、その証拠を検討してください。正当な理由があると主張し、その後の再評価の可能性を認める方法で進めます。

このペーパーで詳しく説明します:http : //www.ncbi.nlm.nih.gov/pubmed/22394284

[2019年11月に追加された補遺:問題をより詳しく説明する新しいリファレンスがありますhttps://arxiv.org/abs/1910.02042v1 ]


@MichaelChernick「p <0.05」を探すだけでなく、統計にはもっと多くのことがあるということをあなたから学ぶようになりました。Michael Lew:私はあなたの論文をダウンロードしましたので、必ず読んでもらいます。この状況で私のデータについて十分な推論をするために、あなたの提案に従います。皆さん、ありがとうございました!
mljrg

3
@MichaelLew仮説検定へのネイマン・ピアソンのアプローチについての薄暗い見方は共有しません。私はまだそれが頻出推論の基本であると思います。私が反対しているのは、0.05レベルへの厳密な遵守のみです。
Michael R. Chernick

@MichaelChernickでは、実験の前に有意性のあるカットオフを選択するべきか、それとも結果が出た後に選択できるかということですか。最初は大丈夫ですが、2番目はそうではありません。Neyman-Pearsonアプローチはエラーレートを扱い、タイプIエラーレートは、有意性のカットオフが事前に選択されている場合にのみ保護されます。したがって、より高いカットオフを選択した可能性があるため、0.05を少し超えるだけで十分だと誰かに助言した場合、実際にはネイマン-ピアソンアプローチではなく、リンク先の論文で説明しているように、不適切な形式のハイブリッドアプローチを使用しています。
Michael Lew

必要に応じて、0.01、0.05、または0.10を選択できます。これは、データの影響を受けずに行う必要があります。しかし、0.01または0.05の選択は、私が言及する問題ではありません。これらの0.049は統計的有意性を意味し、0.0501はそうではないため、有意水準の黒と白の信念です。
Michael R.Chernick

科学者は証拠に興味深いですが、重要性を決定するために使用される方法論に縛られていません。
Michael R. Chernick

13

12

12

結果が矛盾していると思われるかもしれませんが、0.05のカットオフは、0.05の近傍に灰色の領域がない白黒の境界として考える必要があります。これらの結果は妥当であり、完全に互換性があると思います。


2
エラー(句読点、文法、タイポグラフィ、スペル)をもう一度読んで、効果的なフォーマットを使用することで、回答をより適切に伝えることができます。Markdownのヘルプページを確認してください
whuber

より古典的な見方では、最初の検定で統計的有意性を見つけることができなかったので、グループの違いの統計的に有意な指標として、それ以上の検定を(専門の出版物で)報告しないでください。これを行うには、.05以外のアルファを使用します。テストを実施する前に高いアルファを選択しなかったため、これは(古典的な観点から)特に問題があり、アルファは不明です。もちろん、あなたがあなた自身の今後の研究プログラムを導くために、あなたのデータを理解しようとしたとき、あなたはグループ1と2の間の違いをメモを取ることができます
ジョエル・W.

@JoelW。0.05091は0.05と本当に異なると私に伝えようとしていますか?とにかく、私のポイントは、結論をどのように報告するかではなく、2つのテストが競合しないと言うことです。データを見る前に、データの分析方法を事前に指定しておくことに同意します。
Michael

1
@whuber以前に投稿を編集していないことをお詫びします。私はそれが今ずっと良く見えることを望みます。
Michael R. Chernick

@JoelW「より古典的な」見方は、実際にはネイマンの推論への「帰納的行動」アプローチです。これは、推論をサポートする統計の使用の小さなサブセットに関連しています。それが頻繁に古典的であるように提示されることは最も不幸です。
マイケルルー

4

クラスカル・ウォリスおよびマン・ホイットニーのU検定の結果は、

  • Mann-Whitney U検定で使用されるランクは、Kruskal-Wallis検定で使用されるランクではありません。そして
  • ランク合計検定は、クラスカル・ワリスの帰無仮説によって暗示されるプールされた分散を使用しません。

したがって、Kruskal-Wallis検定の後の事後検定としてMann-whitney U検定を使用することはお勧めしません。

Dunnのテスト(一般的に使用される)、Conover-Iman、Dwass-Steel-Citchlow-Flignerテストなどの他のテストは、クラスカルウォリステストの事後テストとして使用できます。


3

これは@vineshへの回答であり、元の質問の一般原則を検討するものでもあります。

複数の比較には実際に2つの問題があります。行われる比較の数を増やすと、より多くの情報が得られ、実際の違いが見やすくなりますが、比較の数が増えると、存在しない違いもわかりやすくなります。 (誤検知、データの浚渫、告白するまでのデータの拷問)。

100人の生徒がいるクラスを考えてみてください。各生徒に公正なコインが与えられ、コインを10回反転させ、その結果を使用して、頭の比率が50%であるという帰無仮説を検定します。私たちは、p値が0から1の範囲であることを期待し、たまたま、約5人の生徒がp値が0.05未満になることを期待します。実際、0.05未満のp値(その可能性は1%未満)が得られなかった場合、私たちは非常に驚きます。いくつかの重要な値のみを見て、他のすべてを無視すると、コインはバイアスされていると誤って結論付けられますが、複数の比較を考慮に入れる手法を使用すると、コインは公正であると正しく判断する可能性があります(または、少なくともそれらまたは公正であることを拒否できません)。

一方、10人の学生がサイコロを振って、値がセット{1,2,3}またはセット{4,5,6}にあるかどうかを決定する同様のケースを考えてください。サイコロが公平である場合、各ロールにチャンスがあります(ただし、サイコロが装備されている場合は異なる可能性があります)。10人の生徒全員がp値(nullは50%)を計算し、0.06〜0.25の値を取得します。この場合、魔法の5%カットオフに達した生徒はいないため、個々の生徒の結果を見て不当な宣言となることはありませんが、すべてのサイコロが正しければ、すべてのp値は0.5未満です。次に、p値は均一に分布し、50%の確率で0.5を超える必要があります。nullがtrueの場合に10の独立したp値がすべて0.5未満になる可能性は、マジック0.05よりも低く、これはダイスがバイアスされていることを示唆しています。

今、コイン投げとサイコロが少し工夫されているので、別の例:私がテストしたい新しい薬を持っています。私の予算では、1,000人の被験者で薬剤をテストすることができます(これは、各被験者が自分のコントロールである場合との比較です)。2つの異なる研究デザインを検討しています。最初に、1,000人の被験者を採用して研究を行い、単一のp値を報告します。2番目のデザインでは、1,000人の被験者を募集しますが、10人ずつの100グループに分け、10人の100グループのそれぞれについて調査を行い、各グループのp値(合計100のp値)を計算します。2つの方法の潜在的な違いと、結論がどのように異なるかを考えてください。客観的なアプローチでは、両方の研究デザインが同じ結論に導く必要があります(同じ1,000人の患者と他のすべてが同じであると仮定)。

@mljrg、なぜg1とg2を比較することにしたのですか?これがデータを収集する前に関心のある問題であった場合、MW p値は合理的で意味があります。ただし、KWテストを実行した場合、どの2つのグループが最も異なり、MWテストを実行したのは、が最も異なって見えた場合、MWテストの仮定に違反し、MW p値は無意味であり、KW p値は潜在的な意味を持つ唯一のものです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.