大規模なデータセットは仮説検定に不適切ですか?


129

では最近の記事Amstatニュース宣言します- 、作者(マーク・ファン・デル・ラーンとシェリー・ローズは)我々は十分に大きなサンプルサイズのために、効果なしの帰無仮説が真であるすべての研究-を含むものがあることを知っている」と述べました統計的に有意な効果。」。

まあ、私はそれを知りませんでした。これは本当ですか?大規模なデータセットに対して仮説検定は価値がないということですか?


10
+1:この質問は通常、いくつかの興味深い視点を明らかにします。
user603

7
大きなデータセットの詳細については、stats.stackexchange.com / q / 7815/919をご覧ください。(そこでの焦点は回帰モデリングにあります。)
whuber


8
大きなサンプルで仮説検定が間違ったツールであると思われる場合、仮説検定は実際には小さなサンプルでも正しい質問に答えていませんでした-間違っていたということは大きなサンプルサイズでより明白になりましたが、同じ考慮事項が関連しています。非常に小さな効果サイズで重要な結果が「まあ、それは私が望んでいたものではない、それが重要かどうかを教えてほしい」と言うなら、仮説テストは最初から間違ったツールでした。この種の問題には、より適切なツール(信頼区間、等価性テストなど)があります。
-Glen_b

回答:


91

それは本当ではない。帰無仮説が真である場合、小さいサンプルサイズよりも大きいサンプルサイズで拒否される頻度は高くなりません。通常は0.05(アルファ)に設定されている誤った拒否率がありますが、サンプルサイズには依存しません。したがって、文字通り、ステートメントは偽です。それでも、状況によっては(フィールド全体でさえ)すべてのnullが偽であるため、Nが十分に高い場合はすべて拒否される可能性があります。しかし、これは悪いことですか?

本当のことは、サンプルサイズが非常に大きいと、些細な効果が「有意」であることがわかるということです。それはあなたがそのような大きなサンプルサイズを持ってはならないことを示唆していません。つまり、調査結果の解釈方法は、テストの効果の大きさと感度に依存するということです。効果のサイズが非常に小さく、高感度のテストがある場合、統計的に有意な結果は意味がなく、有用でない可能性があることを認識する必要があります。

一部の人々は、nullがtrueの場合、帰無仮説の検定はエラー率が常に任意のサンプルサイズに対して選択されたカットオフポイントに等しいと信じていないのでR、点を証明する簡単なシミュレーションを示します。Nを好きなだけ大きくすると、タイプIのエラー率は一定のままになります。

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

8
+1:実際、ここでの3つの答えはすべて論理的に一貫しています。
user603

1
最後に、(統計学ではない)教授がずっと前に私に言ったことの暴言を見つけました。
ジェイス

1
@Sympa、いいえ。Nが上がるとSEが下がるからといって、常に大きなNの効果が見つかるとは限りません(シミュレーションを参照)。SEが低下するにつれて、効果の推定の質が向上していることに注意してください。人口効果がない場合は、0に近い可能性が高く、差はありません。実際、p値の分布は、nullがtrueの場合は常にサンプルサイズに関係なくフラットです(そのための独自のシミュレーションを作成します)。答えに矛盾はありません。
ジョン

4
その後、あなたは間違っているでしょう。ここで他の回答も読むことを検討してください。シミュレーションと仮説検定の関係を追跡することはできないため、標準誤差が減少し、tが増加し、pが減少するという主な主張のみを指摘できると思います。これは、効果が一定である場合にのみ当てはまります。ただし、効果はランダムなサンプルであり、真の効果が0の場合、Nが増加すると、観察される効果は減少する傾向があります。したがって、たとえNが増加してもSEが低下しても、t値の分子も小さくなるため、t値は増加しません。
ジョン

1
rnormが無理数を生成できないという事実は、この例では無関係です。平均0およびsd 1から正確に法線を描画しない場合でも、両方のサンプルで同じ非法線です。タイプIのエラーレートは.05からわずかにずれている場合がありますが、Nに関係なく一定に保たれる必要があります。(難解な問題を本当に発生させたい場合は、擬似ランダム性に対処する必要があります。)
ジョン

31

出てきた答えには同意しますが、おそらく質問をリダイレクトできることを付け加えたいと思います。仮説をテストするかどうかは、少なくとも一般的には、持っているデータの量に依存しない研究の質問です。仮説を実際にテストする必要がある場合は、そうしてください。小さな影響を検出する能力を恐れないでください。しかし、最初にそれがあなたの研究目標の一部であるかどうか尋ねてください。

いくつかのちょっとした言い回しの場合:

  • いくつかの帰無仮説は、構築によって完全に真実です。たとえば、擬似乱数生成器の等分布をテストしているときに、PRGが真に等分布である場合(数学的な定理となる)、nullが成り立ちます。おそらくほとんどの人は、治療が実際に効果がない実験でのランダム化から生じる、より興味深い実世界の例を考えることができます。(例としてespに関する文献全体を掲載します。;-)

  • 1/ϵ2ϵ


α

@fcopあなたのコメントは正しいですが、他の答えに向けられているようです。彼らはこの1つの点を見逃しています。それは、すべての統計分析が仮説検定である必要があるわけではないことを示唆することです。タイプIおよびIIのエラーは、正式な仮説検定を実行する場合にのみ意味を持ちます。
whuberの

H0:μ=1H1:μ1

@fcop説明ありがとうございます。私はあなたの推論に同意します:nullが真である場合、構築により、大規模な研究でも最大でテストのサイズに等しいチャンスで有意な効果を見つけます-つまり、有意な効果を見つける可能性は低いでしょう。
whuberの

19

仮説検定は伝統的に、アルファが0.05未満の場合に統計的有意性を導き出すためにp値に焦点を合わせていましたが、大きな弱点があります。そして、それは、十分な大きさのサンプルサイズで、どの実験でも最終的に帰無仮説を棄却し、統計的に有意であると判明した些細な小さな違いを検出できるということです。

これが、製薬会社が非常に多くのサンプルでFDAの承認を得るために臨床試験を構成する理由です。サンプルが大きいと、標準誤差がゼロに近くなります。これにより、t statが人為的に増加し、それに応じてp値が0%近くまで低下します。

私は経済的インセンティブによって損なわれていない科学コミュニティ内に集まり、関連する利益相反仮説のテストは、p値の測定から効果サイズの測定に移行しています。これは、効果サイズ分析の統計上の距離または微分の単位が、標準誤差ではなく標準偏差であるためです。また、標準偏差はサンプルサイズから完全に独立しています。一方、標準誤差はサンプルサイズに完全に依存しています。

そのため、大きなサンプルとp値に関連する方法論に基づいて統計的に有意な結果に達する仮説検定に懐疑的な人は誰でも懐疑的です。同じデータを使用して、代わりに効果サイズの統計テストを使用して、分析を再実行する必要があります。そして、エフェクトサイズが重要であるかどうかを確認します。そうすることで、統計的に有意な多くの違いが重要ではない効果サイズに関連付けられていることがわかります。これは、結果が統計的に有意であるが「臨床的に有意」ではない場合に、臨床試験研究者が時々意味することです。彼らは、1つの治療がプラセボよりも優れているかもしれないことを意味しますが、その違いは臨床的な文脈の中で患者に違いをもたらさないほどわずかです。


1
ある人の大きなサンプルは別の人の小さなサンプルです。:)
イテレーター

3
あなたは間違った質問をしませんでしたか?おそらく、FDAの承認プロセスでは、統計的な有意性を単に要求するのではなく、プラセボ(副作用を含めた薬のコストに関連する可能性が高い)よりも大きなゲインを指定する必要がありますか?非常に小さいとはいえ、実際の差は非常によくあるため、その差はわずかであっても統計的に有意であることが示されました。
エミルヴィクストローム14年

FDAは「単なる統計的有意性」を必要としません。それはばかげているでしょう。業界の誰もが「臨床的に重要」とは何かを理解しています。FDA は、寛解などの臨床エンドポイントによって測定された薬の有効性の統計的証拠を、健康と安全性の懸念と比較検討します。根拠のない主張を行う前に、FDAのガイドラインをお読みください。
qwr

15

(度数衡)仮説検定は、正確に、観測されたデータの確率の問題に対処します。または、帰無仮説が真であると仮定すると、より極端なことが起こります。この解釈は、サンプルサイズとは無関係です。この解釈は、サンプルのサイズが5であっても1,000,000であっても有効です。

重要な注意点は、テストはサンプリングエラーにのみ関連するということです。測定、サンプリングの問題、カバレッジ、データ入力エラーなどのエラーは、サンプリングエラーの範囲外です。サンプルサイズが大きくなると、わずかな逸脱がランダムサンプリングモデルから大幅に逸脱する可能性があるため、非サンプリングエラーの影響が大きくなります。その結果、重要性のテストはあまり有用ではなくなります。

これは決して有意性テストの告発ではありません。ただし、帰属に注意する必要があります。結果は統計的に有意な場合があります。ただし、サンプルサイズが大きい場合の帰属方法については注意する必要があります。その差は、サンプリングエラーに対する可視化された生成プロセスによるものですか、それともテスト統計に影響を与える可能性のあるいくつかの非サンプリングエラーの結果ですか(統計では説明されていません)?

大きなサンプルでのもう1つの考慮事項は、結果の実際的な重要性です。重要なテストは、(非サンプリングエラーを除外できるとしても)実際的な意味では些細な違いを示唆する場合があります。その結果がサンプリングモデルで与えられる可能性が低い場合でも、問題のコンテキストでは重要ですか?サンプルが十分に大きい場合、2つのグループ間で収入を比較するときに統計的に有意な結果を得るには、数ドルの差で十分かもしれません。これは意味のある意味で重要ですか?統計的有意性は、適切な判断と主題の知識に代わるものではありません。

余談ですが、nullは真でも偽でもありません。モデルです。これは仮定です。nullが真であると仮定し、その仮定に関してサンプルを評価します。サンプルがこの仮定を与えられそうにない場合、私たちは私たちの選択肢にもっと信頼を置きます。ヌルが実際に真であるかどうかを疑問視することは、有意性テストの論理の誤解です。


3
これは、サンプルサイズが大きくなるとモデルの複雑さが増すという議論をサポートします。大きなサンプルの場合、サンプリングエラーは不確実性の主な原因ではなくなります。もちろん、これはベイズのフレームワークで「意味をなす」だけであり、サンプリング誤差以外の不確実性の他の原因を可能にします。
確率論的

13

別の答えで直接述べられていない簡単な点の1つは、「すべての帰無仮説が偽である」ということは単に真実ではないということです。

物理的なコインのヘッド確率が0.5に正確に等しいという単純な仮説は、それは間違いです。

α

α


9

ある意味で、[すべて] 多くの帰無仮説は常に偽です(奇数の家に住んでいる人々のグループは、偶数の家に住んでいる人々のグループと平均で正確に同じになることはありません)。

Tαn0.5Tααn

これは統計的テストの欠陥ではありません。単なる追加情報なしで(事前)、ヌルとの小さな矛盾の多くをヌルに対する証拠としてとらなければならないという事実の結果。これらの不整合がどれほど些細なものであっても、判明します。

P^(|μ¯1μ¯2|2>η|η,X)


それは奇妙です...直感的に、これは大数の法則と矛盾するようです。
カルロスアクシオリー

Carlos:>もっと具体的にできますか?
user603

n

1
@Carlos-ただし、収束は平等を意味するものではありません。これは、無限の到達不可能な制限に対してのみ保証されます。矛盾はありません

5

短い答えは「いいえ」です。無限の観測と複数の仮説の漸近的レジームでの仮説検定に関する研究は、マイクロアレイデータと金融データアプリケーションのために、過去15〜20年で非常に活発に行われています。長い答えは、2010年にBrad Efronが教えたStat 329のコースページ「大規模同時推論」にあります。フル章では、大規模な仮説検定に専念しています。


7
Efronの本は、サンプルサイズではなく、多数の変数(および結果として生じる複数のテストの問題)に焦点を当てていると思います。
ガリットシュムエリ

4

大きなデータの仮説検定では、違いがあるかどうかではなく、望ましいレベルの違いを考慮する必要があります。推定値が正確に0であるというH0には興味がありません。一般的なアプローチは、帰無仮説と観測値の差が特定のカットオフ値より大きいかどうかをテストすることです。

X1¯>X2¯

T=X1¯X2¯δS2n+δS2nN(δS2n,1)
T=X1¯X2¯S2nN(δS2n,1)

H0:X1¯X2¯=δ

X1¯X2¯δS2nN(0,1)

HAX1¯X2¯>δ

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

与えるもの:

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100 

最初の方程式にコピー/ペーストのタイプミスはありませんか?
user603

見えないの?
ジョリスメイズ

4

「仮説テストは、大規模なデータセットに対して価値がないということですか?」

いいえ、それはそれを意味しません。一般的なメッセージは、仮説検定の実施後に下される決定は、p値だけでなく、推定効果サイズを常に考慮に入れる必要あるということです。特に、サンプルサイズが非常に大きい実験では、効果サイズを考慮する必要が劇的になります。もちろん、一般に、手順が「自動化」されにくくなるため、ユーザーはこれを好みません。

このシミュレーション例を検討してください。標準正規分布から100万の観測値のランダムなサンプルがあるとします。

n <- 10^6
x <- rnorm(n)

0.01

y <- rnorm(n, mean = 0.01)

95%2.5×1014

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

95%[0.013,0.008]

この大きさの2つの母集団平均の違いは、私たちが研究している特定の問題に関連していますか?


私はあなたの答えのすべてに同意しますが、最初の文は「はい、通常はそれを意味します」に変更します。なぜなら、100万程度の大きなサンプルでは効果サイズが非常に小さいからです。
zbicyclist

α

3

HST:d1=1.23,d2=1.11,di

しかし、通常、これらの確実な仮説に興味はありません。仮説検定で実際に何をしたいのかを考えると、帰無仮説をより良いものに置き換える場合にのみ、帰無仮説を拒否すべきであることがすぐにわかるでしょう。nullがデータを説明していない場合でも、置き換えがない限り、データを破棄することはできません。今、あなたは常にヌルを「確実な」仮説に置き換えますか?これらの「確実な」仮説を使用してデータセットを超えて一般化することはできないため、おそらくそうではありません。データを印刷するだけではありません。

だから、あなたがすべきことは、もしそれらが真実だったなら、実際に行動することに興味があるという仮説を指定することです。次に、これらの選択肢を互いに比較するための適切なテストを実行します-誤っているか使用できないことがわかっている無関係なクラスの仮説とは比較しません。

H0:μ=0H1:μ{±1,±2,±3,±4,±5,±6}0.5100

結論は基本的に、仮説空間、つまり実際に興味のある仮説を指定する必要があるということです。ビッグデータでは、これは非常に重要なことになるようです。また、適切な結果を得るために、仮説のように比較することが重要であるように思われます。


3

いいえ。事実、すべての有用な点仮説検定には一貫性があるため、サンプルサイズが十分に大きく、何らかの無関係な効果が存在する場合に重要な結果が表示されます。統計的仮説のテスト(上記のGaetan Lionの回答で既に言及されている)のこの欠点を克服するために、関連性テストがあります。これらは同等性テストに似ていますが、あまり一般的ではありません。関連性テストでは、最小の関連効果のサイズが事前に指定されています。関連性テストは、効果の信頼区間に基づいて行うことができます。信頼区間と関連領域が互いに素であれば、nullを拒否できます。

しかし、van der LaanとRoseは、声明で、真の帰無仮説でさえ試験で検証されていると仮定しています。帰無仮説が当てはまる場合、拒否の可能性はアルファよりも大きくありません。特に大きなサンプルの場合や誤って指定されている場合でも、サンプル分布は母集団分布と系統的に異なることがわかります。


3

あなたが言及した記事には、標準的な頻度テストに関する限り、有効なポイントがあります。そのため、特定のエフェクトサイズのテストが非常に重要です。例として、3つのグループ間のanovaを示します。グループBはグループAおよびCとは少し異なります。rでこれを試してください。

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

予想どおり、テストごとのサンプル数が増えると、テストの統計的有意性が増加します。 ここに画像の説明を入力してください


2

彼らが意味するのは、「単純な」形式を持っているが真の確率密度に対応していない帰無仮説の確率密度についてしばしば仮定をするということだと思います。

現在、小さなデータセットでは、この効果を見るのに十分な感度がない場合がありますが、十分なデータセットでは、帰無仮説を拒否し、帰無仮説に関する仮定が間違っていると結論付ける代わりに、新しい効果があると結論付けます。


1
マークとシェルンがあなたの見解を念頭に置いていたかどうかはわかりませんが、あなたのポイントを言い換えるだけです-ヌルの下のデータのモデルが「間違っている」なら、十分に大きいデータのヌル仮説を拒否します。

1

α

H0H1

消費電力はサンプルサイズとともに増加します(他のすべての条件は同じです)。

しかし、「十分な大きさのサンプルサイズについて、効果がないという帰無仮説が真であるものを含むすべての研究が統計的に有意な効果を宣言することを知っています」。間違っています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.