「統計的に有意」では不十分なのはなぜですか?


46

データ分析を完了し、仮説と一致する「統計的に有意な結果」を得ました。しかし、統計学の学生は、これは時期尚早な結論だと私に言った。どうして?レポートに含める必要のあるものは他にありますか?


4
「仮説と一致する統計的に有意な結果を得た」という意味に大きく依存します。風が木によって生成されるという仮説で、木が枝を動かしているときの観察の100%で風があったことが実験で示されている場合、統計的に有意であることがわかり、結論が証明されます。これは明らかに間違っています。それで、これはそれらのケースの1つかもしれません。
サシュケロ

1
適切に設計されたデータコレクション、同じモデル、同じ仮説検定を使用して、信頼性のある「重要な発見」を安全に宣言するには、フォローアップ調査が本当に必要です。また、あなたはあなたの現在のデータセットを使用すると、重要な発見(これは、「ビッグデータ」と推論のための重要な問題である)で約主張作っている「一般集団」を表していることを確認する必要があります
probabilityislogic

1
確かに答えは「相関関係は因果関係ではない」のと同じくらい簡単ですか?
フラクショナル

1
ここに私のお気に入りのものがあります:より多くの米を食べる人々はより多くの子供を生みます。チェック世界の人口を、あなたは統計的にsignifcant結果を取得します...
カロリー・ホーバス

4
すばらしい答えですが、誰も明白な解決策を提案していないことに驚いています:彼に尋ねてください。誰かがあなたがあなたの仕事やあなたが気にかけている他の何かについてあなたが間違っていると言うときはいつでも、ただ尋ねてください。X、y、Zがクールだから、自分が間違っていると誰かに伝える-それは学習の機会です。しかし、誰かに自分が間違っていると言って、威勢のいい動きをするのはペニスの動きです。
Sylverdrag

回答:


53

仮説検定とパラメーター推定

通常、仮説はバイナリ形式で組み立てられます。方向性仮説は、問題をあまり変えないので、片側に置きます。少なくとも心理学では、次のような仮説について話すのが一般的です。グループ平均の差はゼロであるか、ゼロではありません。相関はゼロであるか、ゼロではありません。回帰係数はゼロであるか、ゼロではありません。r-squareはゼロであるか、ゼロではありません。これらすべての場合に、効果がないという帰無仮説と、効果の対立仮説があります。

通常、このバイナリ思考は、私たちが最も関心を持っているものではありません。研究の質問を考えると、ほとんどの場合、実際にパラメーターの推定に興味があることがわかります。グループ平均間の実際の差、相関のサイズ、回帰係数のサイズ、または説明された分散の量に興味があります。

もちろん、データのサンプルを取得するとき、パラメーターのサンプル推定値は母集団パラメーターと同じではありません。そのため、パラメータの値がどのようになるかについて不確実性を定量化する方法が必要です。頻繁な観点から見ると、信頼区間は実行手段を提供しますが、ベイジアンの純粋主義者は、あなたがしたい推論を厳密に許可しないと主張するかもしれません。ベイジアンの観点から、事後密度の信頼できる間隔は、母集団パラメーターの値に関する不確実性を定量化するより直接的な手段を提供します。

パラメーター/エフェクトサイズ

バイナリ仮説検定アプローチから離れると、継続的な考え方が必要になります。たとえば、グループの平均サイズの違いは、理論的に興味深いでしょうか?グループ平均の違いを主観的な言語や実際の意味合いにどのようにマッピングしますか?効果的な標準化された測定値と文脈上の基準は、異なるパラメーター値が何を意味するかを定量化するための言語を構築する1つの方法です。このような尺度には、多くの場合「効果サイズ」とラベル付けされます(例、コーエンのd、r、など)。ただし、標準化されていない測定を使用して効果の重要性について話すことは完全に合理的であり、しばしば望ましいです(たとえば、所得レベル、平均余命などの意味のある標準化されていない変数のグループ平均の違い)。R2

心理学(およびその他の分野)には、p値、帰無仮説の有意性検定などに焦点を当てた批判的な文献があります(このGoogle Scholarの検索を参照)。この文献では、解像度として信頼区間を使用して効果サイズを報告することが推奨されることがよくあります(たとえば、ウィルキンソンによるAPAタスクフォース、1999)。

バイナリ仮説検定から移行する手順

この考え方を採用することを考えている場合、次のように、より洗練されたアプローチをとることができると思います。

  • アプローチ1a。生の用語と標準化された用語の両方で、サンプル効果のポイント推定値(グループ平均差など)を報告します。結果を報告するとき、そのような規模が理論と実践にとって何を意味するかを話し合います。
  • アプローチ1b。少なくとも非常に基本的なレベルで、1aにサンプルサイズに基づいたパラメーター推定値の不確実性の感覚を追加します。
  • アプローチ2。効果サイズの信頼区間も報告し、この不確実性を対象のパラメーターの妥当な値についての考えに組み込みます。
  • アプローチ3.ベイジアンの信頼できる区間を報告し、その信頼できる区間に対するさまざまな仮定の影響を調べます。たとえば、事前選択、モデルによって暗示されるデータ生成プロセスなどです。

考えられる多くの参考文献の中で、Andrew Gelmanが彼のブログや研究でこれらの問題について多くを語っているのを見るでしょう。

参照資料

  • ニッカーソン、RS(2000)。帰無仮説の有意性テスト:古くて継続的な論争のレビュー。心理学的方法、5(2)、241。
  • ウィルキンソン、L。(1999)。心理学ジャーナルの統計的手法:ガイドラインと説明。アメリカの心理学者、54(8)、594 PDF

12
ジェロミーのコメントに加えて、統計的有意性のカルトに関するZiliacとMcCloskeyのエッセイを読むことをお勧めします。これは最も驚くべき統計ではありませんが、効果の大きさ、実用的な重要性、損失関数が非常に重要である理由について思慮深く、そして面白い議論を提供します。deirdremccloskey.com/docs/jsm.pdf
ジム

時々pを.05より低く設定する必要があると思います。すべてのありがとう:GUNG、Jeromyとジム
ジム・フォン・

1
Ziliak [NB]とMcCloskeyについて:忙しい場合は、最初にphil.vt.edu/dmayo/personal_website/…を読んでください。忙しくない場合でも、最初に読んでください。
ニックコックス

どういたしまして、@ JimVon。FWIW、私は時々p が0.05 より高く設定されるべきだと思います。それはただ依存します。
GUNG -復活モニカ

1
ゲルマン博士がここで名前を落とすのを見てうれしいです。どうやら彼はp値を報告することすら好まないようです。もちろん、彼はすべての変数を標準化するための良いケースにもなります。
シャドウトーカー

26

既存の回答に追加するだけです(ところで、これは素晴らしいことです)。統計的有意性はサンプルサイズの関数であることに注意することが重要です。

より多くのデータを取得すると、どこを見ても統計的に有意な違いを見つけることができます。データの量が膨大な場合、ごくわずかな影響でさえ統計的有意性につながる可能性があります。これは、効果が実際的な意味で意味があると言っているわけではありません。

差異をテストする場合、統計的に有意な結果を生成するために必要な効果サイズはサンプルサイズの増加とともに減少するため、値だけでは不十分です。実際には、実際の問題は、通常、特定の最小サイズの効果があるかどうかです(関連するため)。サンプルが非常に大きくなると、値は実際の質問に答える際に無意味に近くなります。Ppp


これは私のスライド13にadressedポイントです:)
ステファン・ローラン

6
+1。重要性に気付いていない人は、サンプルサイズの関数であることに気がつきます。
フォマイト

12

研究を実施する前に仮説が正しいと疑う合理的な根拠がある場合; そして、あなたは良い研究を行った(例えば、あなたは交絡を誘発しなかった)。また、結果は仮説と一致し、統計的に有意でした。それなら、あなたは大丈夫だと思う。

ただし、結果で重要なのは重要だと考えるべきではありません。最初に、効果サイズも確認する必要があります(ここでの私の答え:有意性検定の仮説としての効果サイズを参照してください)。データを少し調べて、フォローアップする価値があるかもしれない興味深い可能性のある驚きを見つけることができるかどうかを確認することもできます。


仮説は合理的であるべきだということですか?そして、私の仮説が無意味なデータ分析につながるかどうかを判断する方法は?「潜在的に興味深い驚き」は、ポストホックによって明らかにされるべきですか?
ジム・フォン

私が意味することは、おそらく、最初の場所で研究を実施する正当な理由があったことです。現在の理論的知識および/または最近の研究は、あなたの仮説が真実であるかもしれないことを示唆しました。一貫性がない限り、仮説は「意味のないデータ分析につながる」可能性は低いです。潜在的に興味深いサプライズ/データの機能は、事後に非常によく発見される可能性があります。それらが驚きであるという事実は、あなたが研究を計画したときにそれらが起こることを知らなかっことを意味します。「事後」に関する問題は、驚きを信じるかどうかです。彼らは将来の研究で確認する必要があります。
GUNG -復活モニカ

7

これとこれとこれとこれを報告する前に、実験データから何を学びたいかを定式化することから始めてください。通常の仮説検定(私たちが学校で学ぶこれらの検定)の主な問題は二値性ではありません。主な問題は、これらが興味のある仮説ではない仮説の検定であることです。こちらのスライド13をご覧ください(アニメーションを鑑賞するにはPDFをダウンロードしてください)。エフェクトサイズについては、この概念の一般的な定義はありません。率直に言って、専門家ではない統計学者にこれを使用することはお勧めしません。これらは「自然」ではなく、技術的な「効果」の尺度です。あなたの興味の仮説は、素人が理解できる用語で定式化されるべきです。


1
ちょっとした追加-帰無仮説は、標準HTが適用される現在のデータ分析のコンテキスト外の何かを実際に意味するはずです。あなたの理論/発見に賛成して拒否する何かがあるように、それは「発明」されるべきではありません。
確率的

2

私は統計の専門家とはほど遠いですが、これまでに行ってきた統計コースで強調されていることの1つは、「実用的な重要性」の問題です。これは、ジェロミーとグングが「効果の大きさ」について言及しているときのことを暗示していると思います。

統計的に有意な減量結果が得られた12週間の食事のクラスの例がありましたが、95%信頼区間では0.2から1.2 kgの平均減量が示されました(OK、データはおそらく構成されていますが、ポイントを示しています) 。「統計的に有意な」ゼロとは異なりますが、12週間にわたる200グラムの減量は、太りすぎの人が健康になろうとする「実質的に有意な」結果ですか?


これが私のスライド13に続くポイントです:)
ステファンローラン

2
これは、「間違った」帰無仮説をテストする例でもあります。あなたが興味を持っている結論ではありません。より良い仮説検定は、体重減少が5kg未満であるのに対して5kg以上であるということです。
確率論的

1

これは、研究の詳細とその人の批判を知らずに正確に答えることは不可能です。しかし、1つの可能性があります。複数のテストを実行し、出てきたテストに焦点を合わせて他のテストp<0.05を無視することを選択した場合、その「重要性」は選択的注意の事実によって薄められます。このための直観ポンプとして、p=0.05「帰無仮説が真であっても、この結果は偶然(わずか)5%の確率でしか発生しない」という意味であることを忘れないでください。そのため、実行するテストが多いほど、たとえ効果がなくても、そのうちの少なくとも1つが偶然に「重要な」結果になる可能性が高くなります。http://en.wikipedia.org/wiki/Multiple_comparisonsおよびhttp://en.wikipedia.org/wiki/Post-hoc_analysisを参照してください


0

以下を読むことをお勧めします。

アンダーソン、DR、バーナム、KP、トンプソン、WL、2000。帰無仮説検定:問題、有病率、および代替。J.ワイルド 管理します。64、912-923。Gigerenzer、G.、2004。マインドレス統計。Journal of Socio-Economics 33、587-606。ジョンソン、DH、1999。統計的有意性検定の重要性。Journal of Wildlife Management 63、763-772。

帰無仮説は、実験または一連の観測から2つの結果があるという意味で興味深いことはめったにありません。nullを正しく拒否するか、タイプIIエラーを作成するかです。効果のサイズは、おそらく決定する際に興味深いものであり、一度行ったら、その効果のサイズの信頼区間を作成する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.