データ分析を完了し、仮説と一致する「統計的に有意な結果」を得ました。しかし、統計学の学生は、これは時期尚早な結論だと私に言った。どうして?レポートに含める必要のあるものは他にありますか?
データ分析を完了し、仮説と一致する「統計的に有意な結果」を得ました。しかし、統計学の学生は、これは時期尚早な結論だと私に言った。どうして?レポートに含める必要のあるものは他にありますか?
回答:
通常、仮説はバイナリ形式で組み立てられます。方向性仮説は、問題をあまり変えないので、片側に置きます。少なくとも心理学では、次のような仮説について話すのが一般的です。グループ平均の差はゼロであるか、ゼロではありません。相関はゼロであるか、ゼロではありません。回帰係数はゼロであるか、ゼロではありません。r-squareはゼロであるか、ゼロではありません。これらすべての場合に、効果がないという帰無仮説と、効果の対立仮説があります。
通常、このバイナリ思考は、私たちが最も関心を持っているものではありません。研究の質問を考えると、ほとんどの場合、実際にパラメーターの推定に興味があることがわかります。グループ平均間の実際の差、相関のサイズ、回帰係数のサイズ、または説明された分散の量に興味があります。
もちろん、データのサンプルを取得するとき、パラメーターのサンプル推定値は母集団パラメーターと同じではありません。そのため、パラメータの値がどのようになるかについて不確実性を定量化する方法が必要です。頻繁な観点から見ると、信頼区間は実行手段を提供しますが、ベイジアンの純粋主義者は、あなたがしたい推論を厳密に許可しないと主張するかもしれません。ベイジアンの観点から、事後密度の信頼できる間隔は、母集団パラメーターの値に関する不確実性を定量化するより直接的な手段を提供します。
バイナリ仮説検定アプローチから離れると、継続的な考え方が必要になります。たとえば、グループの平均サイズの違いは、理論的に興味深いでしょうか?グループ平均の違いを主観的な言語や実際の意味合いにどのようにマッピングしますか?効果的な標準化された測定値と文脈上の基準は、異なるパラメーター値が何を意味するかを定量化するための言語を構築する1つの方法です。このような尺度には、多くの場合「効果サイズ」とラベル付けされます(例、コーエンのd、r、など)。ただし、標準化されていない測定を使用して効果の重要性について話すことは完全に合理的であり、しばしば望ましいです(たとえば、所得レベル、平均余命などの意味のある標準化されていない変数のグループ平均の違い)。
心理学(およびその他の分野)には、p値、帰無仮説の有意性検定などに焦点を当てた批判的な文献があります(このGoogle Scholarの検索を参照)。この文献では、解像度として信頼区間を使用して効果サイズを報告することが推奨されることがよくあります(たとえば、ウィルキンソンによるAPAタスクフォース、1999)。
この考え方を採用することを考えている場合、次のように、より洗練されたアプローチをとることができると思います。
考えられる多くの参考文献の中で、Andrew Gelmanが彼のブログや研究でこれらの問題について多くを語っているのを見るでしょう。
既存の回答に追加するだけです(ところで、これは素晴らしいことです)。統計的有意性はサンプルサイズの関数であることに注意することが重要です。
より多くのデータを取得すると、どこを見ても統計的に有意な違いを見つけることができます。データの量が膨大な場合、ごくわずかな影響でさえ統計的有意性につながる可能性があります。これは、効果が実際的な意味で意味があると言っているわけではありません。
差異をテストする場合、統計的に有意な結果を生成するために必要な効果サイズはサンプルサイズの増加とともに減少するため、値だけでは不十分です。実際には、実際の問題は、通常、特定の最小サイズの効果があるかどうかです(関連するため)。サンプルが非常に大きくなると、値は実際の質問に答える際に無意味に近くなります。P
研究を実施する前に仮説が正しいと疑う合理的な根拠がある場合; そして、あなたは良い研究を行った(例えば、あなたは交絡を誘発しなかった)。また、結果は仮説と一致し、統計的に有意でした。それなら、あなたは大丈夫だと思う。
ただし、結果で重要なのは重要だと考えるべきではありません。最初に、効果サイズも確認する必要があります(ここでの私の答え:有意性検定の仮説としての効果サイズを参照してください)。データを少し調べて、フォローアップする価値があるかもしれない興味深い可能性のある驚きを見つけることができるかどうかを確認することもできます。
これとこれとこれとこれを報告する前に、実験データから何を学びたいかを定式化することから始めてください。通常の仮説検定(私たちが学校で学ぶこれらの検定)の主な問題は二値性ではありません。主な問題は、これらが興味のある仮説ではない仮説の検定であることです。こちらのスライド13をご覧ください(アニメーションを鑑賞するにはPDFをダウンロードしてください)。エフェクトサイズについては、この概念の一般的な定義はありません。率直に言って、専門家ではない統計学者にこれを使用することはお勧めしません。これらは「自然」ではなく、技術的な「効果」の尺度です。あなたの興味の仮説は、素人が理解できる用語で定式化されるべきです。
私は統計の専門家とはほど遠いですが、これまでに行ってきた統計コースで強調されていることの1つは、「実用的な重要性」の問題です。これは、ジェロミーとグングが「効果の大きさ」について言及しているときのことを暗示していると思います。
統計的に有意な減量結果が得られた12週間の食事のクラスの例がありましたが、95%信頼区間では0.2から1.2 kgの平均減量が示されました(OK、データはおそらく構成されていますが、ポイントを示しています) 。「統計的に有意な」ゼロとは異なりますが、12週間にわたる200グラムの減量は、太りすぎの人が健康になろうとする「実質的に有意な」結果ですか?
これは、研究の詳細とその人の批判を知らずに正確に答えることは不可能です。しかし、1つの可能性があります。複数のテストを実行し、出てきたテストに焦点を合わせて他のテストp<0.05
を無視することを選択した場合、その「重要性」は選択的注意の事実によって薄められます。このための直観ポンプとして、p=0.05
「帰無仮説が真であっても、この結果は偶然(わずか)5%の確率でしか発生しない」という意味であることを忘れないでください。そのため、実行するテストが多いほど、たとえ効果がなくても、そのうちの少なくとも1つが偶然に「重要な」結果になる可能性が高くなります。http://en.wikipedia.org/wiki/Multiple_comparisonsおよびhttp://en.wikipedia.org/wiki/Post-hoc_analysisを参照してください
以下を読むことをお勧めします。
アンダーソン、DR、バーナム、KP、トンプソン、WL、2000。帰無仮説検定:問題、有病率、および代替。J.ワイルド 管理します。64、912-923。Gigerenzer、G.、2004。マインドレス統計。Journal of Socio-Economics 33、587-606。ジョンソン、DH、1999。統計的有意性検定の重要性。Journal of Wildlife Management 63、763-772。
帰無仮説は、実験または一連の観測から2つの結果があるという意味で興味深いことはめったにありません。nullを正しく拒否するか、タイプIIエラーを作成するかです。効果のサイズは、おそらく決定する際に興味深いものであり、一度行ったら、その効果のサイズの信頼区間を作成する必要があります。