有意性検定の仮説としての効果サイズ


37

今日、Cross Validated Journal Clubで(なぜそこにいなかったのですか?)、@ mbqは次のように尋ねました:

私たち(現代のデータサイエンティスト)は、意味が何を意味するかを知っていると思いますか?そして、それが結果に対する自信にどのように関係しているのでしょうか?

@Michelleは、一部の人(私を含む)が通常するように答えました:

私は自分のキャリアを続けるにつれて、重要性の概念(p値に基づく)がますます役に立たなくなってきています。たとえば、非常に大きなデータセットを使用することができるので、すべてが統計的に重要です(p<.01

これはおそらく愚かな質問ですが、問題は仮説が検証されているのではないでしょうか?帰無仮説「AはBに等しい」をテストすると、答えは「いいえ」であることがわかります。より大きなデータセットは、この必然的に真の結論に近づくだけです。「ラムの右側の毛の数はその左側の毛の数に等しい」という仮説で例を挙げたのはデミングだったと思います。もちろん、そうではありません。

より良い仮説は、「AはBとそれほど違いはありません」です。または、ラムの例では、「ラムの側面の毛の数はX%を超えて異ならない」。

これは理にかなっていますか?


1)平均等価性のテスト(必要なものであると仮定)は、平均差の有意性のテストに簡略化される場合があります。この差の推定値の標準誤差を使用すると、「Bとの違いはもっと...」ソートのあらゆる種類のテストを実行できます。2)サンプルサイズについて-はい、大きなssでは重要性の重要性は低下しますが、追加の値を生成することができない小さなサンプルでは依然として重要です。
オンドレイ

11
Re「もちろん違います。」推測では、子羊は各側に毛を持っています。そのような毛の数が偶数であり、それらが両側に等しい確率でランダムに分布し、両側が明確に描かれている場合、両方の数が正確に等しい確率は0.178%です。数百の大きな群れでは、少なくとも十年に一度生まれる完璧にバランスのとれた子羊を見ることが期待できます(約50%の割合で偶数本の毛が発生すると仮定)。または:ほぼすべての古い羊飼いはそのような子羊を飼っています!105
whuber

1
@whuber分析の目的によって決まります。より良い類似性は、試験後の薬剤へのさらなる投資を正当化する最小効果サイズであるでしょう。統計的に有意な効果の存在だけでは十分ではありません。薬剤の開発には費用がかかり、考慮すべき副作用があるかもしれないからです。これは統計的な質問ではなく、実用的な質問です。
ディクラン有袋類

2
@whuber関心のある最小効果サイズを決定するための実用的な情報がないほとんどのアプリケーションでは、標準性のテストなど、標準の仮説テストで十分だと思います。ベイジアンとして、仮説検定問題ではなく、最適化問題としての見解に同意します。仮説検定の問題の一部は、統計クックブックアプローチの結果であり、検定の目的は、演習の目的や結果の真の意味を考慮せずに伝統として実行されます(もちろん、すべてIMHO)。
ディクラン有袋類

1
@DikranMarsupialは、優れた学習デザインの重要性ではなく、下のgungによって識別されるように、学生がロートによってテストを教えられている鍵ではありませんか?スタディデザインに重点を置くことは、必ずしもビッグデータセットではなく、いくつかの問題を解決するのに役立ちますか?
ミシェル

回答:


25

有意性試験(または有意性試験と本質的に同じことを行う他のすべて)に関する限り、ほとんどの状況での最良のアプローチは標準化された効果サイズを推定することであり、それについて95%の信頼区間があると長い間考えていました効果の大きさ。「nil」nullのp値が<.05の場合、数学的には前後にシャッフルできますが、特に新しいものはありません。0は95%CIの外側にあり、逆も同様です。私の意見では、これの利点は心理的です; つまり、存在する顕著な情報を作成しますが、p値のみが報告された場合には人々は見ることができません。たとえば、効果が乱暴に「重要」であるが、途方もなく小さいことは簡単にわかります。または「重要ではない」が、これはエラーバーが非常に大きいのに対し、推定される効果は多かれ少なかれ予想したものだからです。これらは、生の値とそのCIとペアにすることができます。

現在、多くのフィールドで生の値は本質的に意味があり、平均値や勾配などの値が既にあるので、効果サイズの尺度を計算する価値があるかどうかという疑問が生じることを認識しています。例としては、成長の阻害が見られます。20歳の白人男性が6 +/- 2インチ(つまり15 +/- 5 cm)短くなることの意味を知っているので、なぜでしょうか?両方を報告することにはまだ価値があると思う傾向があり、これらを計算する関数を書くことができるので、余分な作業はほとんどありませんが、意見が変わることを認識しています。とにかく、信頼区間を使用したポイント推定は、応答の最初の部分としてp値を置き換えると主張します。 d=1.6±.5

一方、より大きな質問は、「有意性テストが私たちが本当に望んでいることをしているのか」ということだと思います。本当の問題は、データを分析するほとんどの人(つまり、統計学者ではなく開業医)にとって、有意性検定がデータ分析全体になる可能性があると思います。私にとって最も重要なことは、データで何が起こっているのかを考えるための原則的な方法を持つことであり、帰無仮説の有意性テストはせいぜいそのごく一部です。架空の例を挙げましょう(これは似顔絵であることは認めますが、残念ながら、やや妥当であると思われます)。

ボブは調査を行い、何か他のものに関するデータを収集します。彼は、データが正規分布し、ある値の周りに密集することを期待し、1サンプルのt検定を行って、データが事前に指定された値と「有意に異なる」かどうかを確認します。サンプルを収集した後、彼は自分のデータが正常に配布されているかどうかを確認し、そうでないことを見つけます。代わりに、中央に顕著なしこりはありませんが、特定の間隔で比較的高く、その後長い左尾で消えます。ボブは、テストが有効であることを確認するために何をすべきか心配しています。彼は最終的に何か(変換、ノンパラメトリック検定など)を実行し、検定統計量とp値を報告します。

これが厄介にならないことを願っています。誰かをanyone笑するつもりはありませんが、このようなことが時々起こると思います。このシナリオが発生した場合、データ分析が不十分であることに全員が同意できます。ただし、問題は検定統計量またはp値が間違っていることではありません。その点でデータが適切処理されたと推測できます。問題は、Clevelandが「rote data analysis」と呼んでいるボブが関与していることだと主張します。彼は正しい点を得ることが唯一のポイントであると信じており、その目標を追求すること以外のデータについてはほとんど考えていません。彼は上記の私の提案に切り替えて、95%の信頼区間で標準化された効果サイズを報告することさえできましたが、それは私がより大きな問題として見るものを変えなかったでしょう(これは私が「本質的に同じこと「別の手段で)。この特定のケースでは、データが期待どおりに見えなかった(つまり、正常ではなかった)という事実は実際の情報であり、興味深い、そして非常に重要かもしれませんが、その情報は基本的に捨てられます。有意性テストに焦点が当てられているため、ボブはこれを認識しません。私の考えでは、それが有意性検定の本当の問題です。

言及されている他のいくつかの観点に触れてみましょう。私は誰も批判していないことを非常に明確にしたいと思います。

  1. 多くの人がp値を本当に理解していない(例えば、nullが本当である確率だと考える)などとよく言われます。ベイジアンアプローチを使用するのが人だけなら、これらの問題はどこかに行って。私は、人々がベイジアンのデータ分析にアプローチするのは、同じように好奇心と機械的な方法であると信じています。ただし、p値を得ることを目標と考えている人がいなければ、p値の意味を誤解することはそれほど有害ではないと思います。
  2. 「ビッグデータ」の存在は、一般にこの問題とは無関係です。ビッグデータは、「有意性」を中心にデータ分析を整理することは有用なアプローチではないことを明らかにするだけです。
  3. 私は問題がテストされている仮説にあるとは思わない。推定値がポイント値に等しい場合ではなく、推定値が間隔外にあるかどうかだけを確認したい場合、同じ問題の多くが発生する可能性があります。(繰り返しますが、明確にしたいのは、あなたが 'Bob'ではないことです。)
  4. 記録のために、最初の段落からの私自身の提案は、私が指摘しようとしたように、問題に対処していないことを言及したいと思います。

私にとってこれが中心的な問題です。私たちが本当に欲しいのは、何が起こったのかを考えるための原則的な方法です。どんな状況でもそれが意味することは、カットして乾燥させることではありません。メソッドクラスの生徒にそれを伝える方法は、明確でも簡単でもありません。重要性テストには、多くの慣性と伝統があります。統計クラスでは、何をどのように教える必要があるかが明確です。学生と開業医の場合、資料を理解するための概念スキーマ、および分析を行うためのチェックリスト/フローチャート(いくつか見ました!)を開発することが可能になります。有意性テストは、だれも愚かでも怠け者でも、悪い人でも、自然にローテットデータ分析に進化できます。 それが問題です。


私は信頼区間が好きです:)一つの質問:効果サイズの事後計算は大丈夫だと言っていましたか?
ミシェル

@Michelle、「ポストホック」の意味がよくわかりませんが、おそらくそうです。例えば、あなたには、いくつかのデータを収集し、ˉ X 2 = 14S D = 6、次に計算D = 0.67。今、それは偏っており、最も単純な状況ですが、あなたはアイデアを得る。x¯1=10x¯2=14SD=6d=.67
GUNG -復活モニカ

はい、私たちはここで同意していると思います。
ミシェル


+1自分で信頼できる間隔を好む。ポイント1について、確率の定義は直感に反しないため、ベイジアンの代替案は結果データ分析につながる可能性が低いと主張します。これにより、実際に尋ねたい質問を統計的に定式化するのがはるかに簡単になります。本当の問題は、テストを実行するには統合が必要であり、このような方法を広く採用するには難しすぎることです。ソフトウェアが、ユーザーが質問の作成に集中し、残りをコンピューターに任せることができるようになることを願っています。
ディクラン有袋類

18

なぜ我々は主張します任意の統計における仮説検定の形?

すばらしい本の中で、統計的議論としての統計 Robert Abelsonは、統計分析は問題の主題に関する原則的議論の一部であると主張しています。彼は、却下される、または却下されない(または受け入れられる!?!)仮説として評価されるのではなく、彼がMAGIC基準と呼ぶものに基づいてそれらを評価する必要があると言います。

大きさ-大きさは?アーティキュレーション-例外がいっぱいですか?明確ですか?一般性-どのくらい一般的に適用されますか?興味深い-結果に関心がありますか?信頼性-信じられますか?

私のブログの本のレビュー


4
この問題は、一部の教授によって促進されています。私の博士号は心理学科にあり、心理学科にいます。私は、部門の他の部分の教授が「p値を報告するだけで、それが重要なことだ」と言うことを聞いた。私の仕事は、主に社会人、行動、教育、医療分野の大学院生や研究者とのコンサルティングです。博士号委員会によって与えられる誤報の量は驚くべきものです。
ピーターフロム-モニカの復職

1
「Why ...」の+1。それが、私が答えで得ようとしていたことの大きな部分です。
GUNG -復活モニカ

私が答えで得ようとしていたことの別の部分は、これが自然に起こると思うことです。ちなみに、2つの賛成票を得るフェアはありません;-)、これらを組み合わせることができます。
GUNG -復活モニカ

13

H0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2Pr(|X1X2|>ϵ)


(+1)そして、1000の評判へようこそ。乾杯。
枢機

6

従来の仮説検定では、効果の存在について統計的に有意な証拠があるかどうかがわかりますが、私たちが知りたいことは、実際に有意な効果の証拠があることです。

最小の効果サイズでベイジアンの「仮説検定」を形成することは確かに可能です(IIRCの例はDavid MacKayの「情報理論、推論、学習アルゴリズム」の本にあります。 。

正規性テストは別の良い例です。通常、データが実際に正規分布していないことを知っています。これが妥当な近似ではないという証拠があるかどうかを確認するためにテストしています。または、コインのバイアスをテストすると、非対称であるため、完全にバイアスされる可能性は低いことがわかります。


6

これの多くは、実際にどのような質問をしているのか、研究をどのように設計しているのか、平等という意味にまで及びます。

特定のフェーズの意味を人々が解釈したことについて話していた英国医学雑誌で、私は興味深い小さな挿入物を実行しました。「常に」とは、91%の確率で何かが発生することを意味することがあります(BMJ VOLUME 333 26 AUGUST 2006 page 445)。したがって、同等で同等(またはXの値の場合はX%以内)は同じことを意味すると考えることができます。そして、Rを使用して、コンピューターに単純な同等性を尋ねましょう。

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

$$

Ha:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμμ0μμ0μ0 μ彼らが同様に実用的な目的のために等しいかもしれない手段に嘘、。

これの多くは、正しい質問をし、その質問に適した研究を設計することに帰着します。実質的に意味のない差が統計的に有意であることを示すのに十分なデータが得られた場合、その量のデータを取得するためのリソースが無駄になっています。意味のある違いが何であるかを決定し、その違いを検出するのに十分ではあるが小さくはないパワーを提供するように研究を設計した方がよかったでしょう。

そして、本当に毛を分割したい場合、子羊のどの部分が右側にあり、どの部分が左側にあるかをどのように定義しますか?定義上、各側に同じ数の毛がある線で定義する場合、上記の質問に対する答えは「もちろん」です。


Rから得られる答えは、単純に何らかの浮動小数点演算の問題の結果であり、無関係な違いを無視するという意識的な決定ではないと思います。古典的な例(.1 + .2)== .3を考えてみましょう。「純粋な数学者」は、どんな精度のレベルでも等しいと言いますが、RはFALSEを返します。
ガラ

@GaëlLaurans、私のポイントは、丸めることにより(人間によるものであれ、コンピューターによるものであれ)、十分に小さいXに対するX%以内の正確に等しいという概念は実質的に同じであるということです。
グレッグスノー

5

組織の観点から見ると、政策オプションのある政府であろうと、新しいプロセス/製品の展開を検討している企業であろうと、単純な費用便益分析の使用も役立ちます。私は過去に(政治的理由を無視して)新しいイニシアチブの既知のコストを考えると、そのイニシアチブによってプラスの影響を受けなければならない多くの人々にとって損益分岐点は何だと主張しましたか?たとえば、新しいイニシアチブがより多くの失業者を仕事に入れることであり、イニシアチブに費用がかかる$100,000場合、それは少なくとも失業率の削減を達成しますか?$100,000ますか?そうでない場合、イニシアチブの効果は実質的に重要ではありません。

健康の結果については、統計的生活の価値が重要になります。これは、健康上の利益が生涯にわたって発生するためです(したがって、利益は割引率に基づいて価値が下方修正されます)。そのため、統計的有意性の代わりに、統計的耐用年数の価値を推定する方法、およびどの割引率が適用されるべきかについて議論があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.