サンプルサイズが小さい場合、t検定の重要な結果を信頼できますか?


17

片側t検定の結果は重要であるが、サンプルサイズが小さい場合(たとえば20未満など)、この結果を信頼できますか?そうでない場合、この結果をどのように処理および/または解釈する必要がありますか?



8
単なるコメントです。以下のすばらしいコメントに追加したくありません。t検定の結果を信頼せず、手順自体を信頼します。個々の結果は正しいか間違っていますが、さらに調査しなければ、あなたはそれを知ることができません。フィッシャーの方法論またはPearson and Neymanの方法論のいずれかのt検定は、仮定が満たされれば信頼できます。を設定すると、無限に繰り返されても、5%以下の時間、おそらくはかなり少ない時間に欺かれます。あなたが尋ねるべき質問は、「仮定は満たされていますか?」です。α<.05
デイブ・ハリス

回答:


15

理論的には、t検定のすべての仮定が真であれば、サンプルサイズが小さくても問題はありません。

実際には、サンプルサイズが大きい場合は回避できるが、サンプルサイズが小さい場合は問題が発生する可能性があるという、まったく真実ではない仮定があります。基礎となるディストリビューションが正規に配布されているかどうか知っていますか?すべてのサンプルは独立しており、同じように配布されていますか?

テストの妥当性が疑わしい場合は、ブートストラップを使用できます。ブートストラップでは、帰無仮説が真または偽である頻度を確認するために、サンプルからのリサンプリングが含まれます。おそらく、帰無仮説はで、p値は0.05ですが、ブートストラップは、サンプル平均が時間の10%未満であることを示しています。これは、p値が0.05の原因であることが原因であり、帰無仮説が偽であると確信する必要はないことを示しています。μ<0


1
たとえば、基礎となる分布がほぼ正規分布であり、サンプルの10個すべてが特定の値よりも小さいことがわかっている場合、母集団のオッズがその値よりも大きいことは明らかに最大2 ^ 10分の1です。または千人に一人。明らかに、正規分布の母集団からの10個すべてのサンプルが平均の同じ側にあるのは、2 ^ 10分の1の確率です。問題は、信頼できる結果が得られることですが、「平均的な成人男性の身長はほぼ間違いなく5フィートから7フィートです」など、非常に弱い結果になります。
デビッドシュワルツ

説明と代替アプローチに感謝します。本当に感謝しています!どうもありがとう!
エリック

ブートストラップの提案は得られません。サンプル(p <0.05)からリサンプリングする場合、ブートストラップのリサンプルの大部分は、5または10%ではなく、約95%の重要な結果になると予想されます。詳しく説明してもらえますか?Ccから@Ericへ。
アメーバは、モニカーを復活させる

3
より一般的な発言として、ブートストラップは大きなサンプルでうまく機能しますが、小さなサンプルではカバレッジは公称値とかなり異なる場合があります。また、サンプルサイズが非常に小さいため、消費電力が低くなります。したがって、「ブートストラップテスト」が常にt検定よりも優れているとは限りません。
アメーバは、

3
@amoebaあなたの修正スタイルが本当に好きです。あなたは私に正しい/間違っていることを教えただけでなく、私のアイデアの奇妙な結果を指摘し、私の答えを再考し、私の間違いの原因を理解させました。感謝します!過去にフーバーも私にこれをやった
ヒュー

21

単一の重要な結果を信頼することはめったにありません。両側検定の代わりに片側検定を使用している理由をあなたは言わなかったので、統計的に有意な結果を主張するのに苦労する以外にそうする正当な理由があることを願っています!

それはさておき、p。261 of Sauro、J.、&Lewis、JR(2016)。ユーザーエクスペリエンスの定量化:ユーザー調査のための実用統計、第2編。ケンブリッジ、マサチューセッツ州:モーガンカウフマン。


ロナルドフィッシャーがp値の使用を推奨した方法

カールピアソンが統計学の偉大な老人であり、ロナルドフィッシャーが比較的新参者だった頃、ピアソンはフィッシャーのアイデアと数学的能力に脅かされたようで、当時の主要な統計ジャーナルにフィッシャーが掲載されるのを防ぐために彼の影響を利用しました、Biometrika and the Journal王立統計学会の。その結果、フィッシャーは、心理学研究会の論文のためのいくつかの論文を含む、農業および気象ジャーナルなどのさまざまな他の会場で彼のアイデアを発表しました。この後者のジャーナルの論文の1つで、彼が現在許容できるタイプIエラー(アルファ)を​​0.05に設定する規則に言及し、さらに、予期せぬ重要な結果に遭遇した場合の再現性の重要性にも言及しました:

私たちが探している種類の本当の原因がなければ、観察結果はめったに生成されないであろうと、重要であると判断されます。結果が重要であると判断するのは一般的な慣行であり、20回の試行で1回よりも頻繁ではない偶然で結果が生成されるほどの大きさである場合です。これは実地調査官にとってfor意的ではあるが便利な重要性のレベルですが、20回の実験ごとに1回だまされることを許可するわけではありません。有意性のテストは、何を無視するか、つまり、有意な結果が得られないすべての実験を彼に伝えるだけです。彼は、実験を設計する方法を知っている場合に、現象が実験的に実証可能であると主張する必要があります。その結果、彼が再現する方法を知らない孤立した重要な結果は、さらなる調査まで保留中のままです。(フィッシャー、1929、p.191)

参照

フィッシャー、RA(1929)。心理学的研究における統計的方法。Society for Psychical Research、39、189-192の議事録。


2
フィッシャーはまた、The Annals of Eugenicsで最尤推定を改良したいくつかの重要な論文を発表しました。彼の方法は、カールピアソンが使用したモーメントの方法よりもしばしば優れていました。フィッシャーは、彼の方法を基準推論と呼びました。その後、ジャージー・ネイマンとエゴン・ピアソン(カール・ピアソンの息子)によって正式にされました。
マイケルR.チェルニック

3
ネイマンとピアソンはフィッシャーの基準推論を形式化しませんでした。彼らは別の方法を開発しました。
マイケルルー

5
フィッシャーの時代、「重要」とは、それが重要であることではなく、何かを意味することを意味していました。
デビッドレーン

1
非常に詳細な情報をありがとうございました!本当に助かります!
エリック

16

ヌルの一部が真である一連の状況で、多くの同様のテストを実行している状況にいると想像してください。

実際、超単純なurn型モデルを使用してモデル化しましょう。骨nには、選択した実験にそれぞれ対応する番号の付いたボールがあり、そのうちのいくつかはヌルが真であり、いくつかはヌルが偽です。urn真のヌルの割合を呼び出します。t

アイデアをさらに単純化するために、これらの偽のヌルのパワーは一定であると仮定しましょうで、はタイプIIエラー率の通常のシンボルであるため)。β(1β)β

あなたは私たちのからいくつかの実験を選択し(それらのうちは「ランダムに」)、それらを実行し、それらの仮説を拒否するか拒否します。urn内の実験の総数(など)が十分に大きいため、これが置換なしのサンプリングであることと違いがないと仮定できます(つまり、必要に応じてこれを2項式に近似させていただければ幸いです) )、およびと両方が十分に大きいため、平均して何が起こるかを、それらが私たちが経験しているように議論できます。M n MnMnM

あなたの拒否の何パーセントが「正しい」でしょうか?

予想される拒否の総数: 予想される正しい拒否の総数:N 1 - T 1 - β ntα+n(1t)(1β)
n(1t)(1β)

拒否が実際に正しい決定であった時間の全体的な割合:(1t)(1β)tα+(1t)(1β)

拒否がエラーであった時間の全体的な割合:tαtα+(1t)(1β)

正しい拒否の割合が小さい数よりも大きくなるには、の状況を回避する必要があります(1t)(1β)tα

セットアップではヌルのかなりの部分が真であるため、がよりも大幅に大きくない場合(つまり、かなり高いパワーを持たない場合)、拒否の多くは間違いです!α1βα

したがって、サンプルサイズが小さい(したがってパワーが低い)場合、nullの妥当な割合が当てはまると、拒否するときにエラーが発生することがよくあります。

ほとんどすべてのnullが厳密にfalseである場合、状況はそれほど良くありません-拒否のほとんどは正しいですが(小さな効果は依然として厳密にfalseであるため)、パワーが高くない場合、それらのかなりの割合拒否は「間違った方向」にあります-偶然にサンプルが間違った側にあることが判明したため、nullはかなり間違っていると結論付けます(これは片側テストを使用するための1つの引数である可能性がありますセンス-少なくとも、大きなサンプルサイズを取得するのが難しい場合に意味のない拒否を避けるため)。

サンプルサイズが小さいことが問題になることは確かです。

[この不正確な拒否の割合は、誤発見率と呼ばれます ]


適切な効果サイズの概念がある場合、適切なサンプルサイズが何であるかを判断するのに適しています。予想される影響が大きい場合、サンプルサイズが小さい場合の拒否は必ずしも大きな懸念事項ではありません。


どうもありがとう!それは非常に簡単に見逃すことができる点です。ピンポイントをしてくれてありがとう!
エリック

1
すごい仕事。これは受け入れられた答えかもしれません。
リチャードハーディ

@Ericの最初の答えは途中で少し混乱しました。修正しました。
Glen_b-モニカを復活

9

彼がt検定を開発したGossetのオリジナル作品(別名スチューデント)には、n = 4と5の酵母サンプルが含まれていました。このテストは、非常に小さなサンプル用に特別に設計されました。それ以外の場合、通常の近似で問題ありません。とはいえ、ゴセットは非常によく理解したデータに対して非常に慎重で制御された実験を行っていました。醸造所がテストしなければならないものの数には制限があり、ゴセットはギネスで彼の労働生活を過ごしました。彼は自分のデータを知っていました。

片側テストに重点を置いていることに少し疑いがあります。テストのロジックは仮説に関係なく同じですが、両側が有意でない場合に重要な片側テストが行​​われるのを見てきました。

これは、(上側の)片側テストが意味するものです。平均が0であることをテストしています。計算を行い、T> 2.5のときに拒否する準備ができています。実験を実行し、T = -50,000であることを確認します。「phhhhht」と言うと、人生は続きます。検定統計量が仮定されたパラメーター値より下に沈むことが物理的に不可能でない限り、また、検定統計量が予想とは逆方向になった場合に何も決定しない場合を除いて、両側検定を使用する必要があります。


6

心配する必要がある主なことは、テストの力です。特に、サンプルサイズを考慮して、妥当なサイズの真の有意な効果を特定するために、事後のパワー分析を行うことができます。典型的な効果が非常に大きい場合、nの8は完全に適切である可能性があります(分子生物学の多くの実験と同様)。あなたに興味を持っている効果は、しかし、(多くの社会心理学実験のように)、一般的に微妙な場合は、nは、数千のは、まだ力不足かもしれません。

テストが不十分だと非常に誤解を招く結果になる可能性があるため、これは重要です。たとえば、テストに十分な力がない場合、重要な結果を見つけたとしても、Andrew Gelmanが「タイプS」エラーと呼ぶものを作成する可能性が比較的高くなります。 「タイプM」エラー。つまり、実際の効果はありますが、真の大きさはデータから推定されるものよりはるかに弱いです。

ゲルマンとカーリンは、あなたの場合に当てはまると思う事後電力分析の実行に関する有用な論文を書きました。重要なことに、彼らは独立したデータ(すなわち、テストしたデータではなく、レビュー、モデリング、同様の実験の結果など)を使用して、もっともらしい真の効果サイズを推定することを推奨します。そのもっともらしい推定真の効果サイズを使用してパワー分析を実行し、結果と比較することにより、タイプSエラーを引き起こす確率と典型的な「誇張率」を判断できるため、エビデンスがどれほど強力であるかをよりよく理解できます。


4

統計的有意性の全ポイントは、「サンプルサイズを考慮して、この結果を信頼できますか?」という質問に答えることです。言い換えれば、全体のポイントは、実際の効果が存在しない場合でも、サンプルサイズが小さい場合に吸虫を取得できるという事実を制御することです。統計的有意性、つまりp値は、「実際の効果が存在しなかった場合、これほど大きな吸虫が発生する可能性はどれくらいあるでしょうか?」という質問に対する答えです。可能性が非常に低い場合、それはまぐれではないことを示しています。

したがって、p値が低い場合、および正しい統計手順に従い、関連する仮定を満たしている場合、答えは「はい」です。はい、それは良い証拠であり、あなたがしたいのと同じ重みを持ちます。非常に大きなサンプルサイズで同じp値を取得しました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.