では最近の記事のAmstatニュース宣言します- 、作者(マーク・ファン・デル・ラーンとシェリー・ローズは)我々は十分に大きなサンプルサイズのために、効果なしの帰無仮説が真であるすべての研究-を含むものがあることを知っている」と述べました統計的に有意な効果。」。
まあ、私はそれを知りませんでした。これは本当ですか?大規模なデータセットに対して仮説検定は価値がないということですか?
では最近の記事のAmstatニュース宣言します- 、作者(マーク・ファン・デル・ラーンとシェリー・ローズは)我々は十分に大きなサンプルサイズのために、効果なしの帰無仮説が真であるすべての研究-を含むものがあることを知っている」と述べました統計的に有意な効果。」。
まあ、私はそれを知りませんでした。これは本当ですか?大規模なデータセットに対して仮説検定は価値がないということですか?
回答:
それは本当ではない。帰無仮説が真である場合、小さいサンプルサイズよりも大きいサンプルサイズで拒否される頻度は高くなりません。通常は0.05(アルファ)に設定されている誤った拒否率がありますが、サンプルサイズには依存しません。したがって、文字通り、ステートメントは偽です。それでも、状況によっては(フィールド全体でさえ)すべてのnullが偽であるため、Nが十分に高い場合はすべて拒否される可能性があります。しかし、これは悪いことですか?
本当のことは、サンプルサイズが非常に大きいと、些細な効果が「有意」であることがわかるということです。それはあなたがそのような大きなサンプルサイズを持ってはならないことを示唆していません。つまり、調査結果の解釈方法は、テストの効果の大きさと感度に依存するということです。効果のサイズが非常に小さく、高感度のテストがある場合、統計的に有意な結果は意味がなく、有用でない可能性があることを認識する必要があります。
一部の人々は、nullがtrueの場合、帰無仮説の検定はエラー率が常に任意のサンプルサイズに対して選択されたカットオフポイントに等しいと信じていないのでR
、点を証明する簡単なシミュレーションを示します。Nを好きなだけ大きくすると、タイプIのエラー率は一定のままになります。
# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000
ps <- replicate(nsamp, {
#population mean = 0, sd = 1 for both samples, therefore, no real effect
y1 <- rnorm(n, 0, 1)
y2 <- rnorm(n, 0, 1)
tt <- t.test(y1, y2, var.equal = TRUE)
tt$p.value
})
sum(ps < .05) / nsamp
# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.
出てきた答えには同意しますが、おそらく質問をリダイレクトできることを付け加えたいと思います。仮説をテストするかどうかは、少なくとも一般的には、持っているデータの量に依存しない研究の質問です。仮説を実際にテストする必要がある場合は、そうしてください。小さな影響を検出する能力を恐れないでください。しかし、最初にそれがあなたの研究目標の一部であるかどうか尋ねてください。
いくつかのちょっとした言い回しの場合:
いくつかの帰無仮説は、構築によって完全に真実です。たとえば、擬似乱数生成器の等分布をテストしているときに、PRGが真に等分布である場合(数学的な定理となる)、nullが成り立ちます。おそらくほとんどの人は、治療が実際に効果がない実験でのランダム化から生じる、より興味深い実世界の例を考えることができます。(例としてespに関する文献全体を掲載します。;-)
仮説検定は伝統的に、アルファが0.05未満の場合に統計的有意性を導き出すためにp値に焦点を合わせていましたが、大きな弱点があります。そして、それは、十分な大きさのサンプルサイズで、どの実験でも最終的に帰無仮説を棄却し、統計的に有意であると判明した些細な小さな違いを検出できるということです。
これが、製薬会社が非常に多くのサンプルでFDAの承認を得るために臨床試験を構成する理由です。サンプルが大きいと、標準誤差がゼロに近くなります。これにより、t statが人為的に増加し、それに応じてp値が0%近くまで低下します。
私は経済的インセンティブによって損なわれていない科学コミュニティ内に集まり、関連する利益相反仮説のテストは、p値の測定から効果サイズの測定に移行しています。これは、効果サイズ分析の統計上の距離または微分の単位が、標準誤差ではなく標準偏差であるためです。また、標準偏差はサンプルサイズから完全に独立しています。一方、標準誤差はサンプルサイズに完全に依存しています。
そのため、大きなサンプルとp値に関連する方法論に基づいて統計的に有意な結果に達する仮説検定に懐疑的な人は誰でも懐疑的です。同じデータを使用して、代わりに効果サイズの統計テストを使用して、分析を再実行する必要があります。そして、エフェクトサイズが重要であるかどうかを確認します。そうすることで、統計的に有意な多くの違いが重要ではない効果サイズに関連付けられていることがわかります。これは、結果が統計的に有意であるが「臨床的に有意」ではない場合に、臨床試験研究者が時々意味することです。彼らは、1つの治療がプラセボよりも優れているかもしれないことを意味しますが、その違いは臨床的な文脈の中で患者に違いをもたらさないほどわずかです。
(度数衡)仮説検定は、正確に、観測されたデータの確率の問題に対処します。または、帰無仮説が真であると仮定すると、より極端なことが起こります。この解釈は、サンプルサイズとは無関係です。この解釈は、サンプルのサイズが5であっても1,000,000であっても有効です。
重要な注意点は、テストはサンプリングエラーにのみ関連するということです。測定、サンプリングの問題、カバレッジ、データ入力エラーなどのエラーは、サンプリングエラーの範囲外です。サンプルサイズが大きくなると、わずかな逸脱がランダムサンプリングモデルから大幅に逸脱する可能性があるため、非サンプリングエラーの影響が大きくなります。その結果、重要性のテストはあまり有用ではなくなります。
これは決して有意性テストの告発ではありません。ただし、帰属に注意する必要があります。結果は統計的に有意な場合があります。ただし、サンプルサイズが大きい場合の帰属方法については注意する必要があります。その差は、サンプリングエラーに対する可視化された生成プロセスによるものですか、それともテスト統計に影響を与える可能性のあるいくつかの非サンプリングエラーの結果ですか(統計では説明されていません)?
大きなサンプルでのもう1つの考慮事項は、結果の実際的な重要性です。重要なテストは、(非サンプリングエラーを除外できるとしても)実際的な意味では些細な違いを示唆する場合があります。その結果がサンプリングモデルで与えられる可能性が低い場合でも、問題のコンテキストでは重要ですか?サンプルが十分に大きい場合、2つのグループ間で収入を比較するときに統計的に有意な結果を得るには、数ドルの差で十分かもしれません。これは意味のある意味で重要ですか?統計的有意性は、適切な判断と主題の知識に代わるものではありません。
余談ですが、nullは真でも偽でもありません。モデルです。これは仮定です。nullが真であると仮定し、その仮定に関してサンプルを評価します。サンプルがこの仮定を与えられそうにない場合、私たちは私たちの選択肢にもっと信頼を置きます。ヌルが実際に真であるかどうかを疑問視することは、有意性テストの論理の誤解です。
別の答えで直接述べられていない簡単な点の1つは、「すべての帰無仮説が偽である」ということは単に真実ではないということです。
物理的なコインのヘッド確率が0.5に正確に等しいという単純な仮説は、それは間違いです。
ある意味で、[すべて] 多くの帰無仮説は常に偽です(奇数の家に住んでいる人々のグループは、偶数の家に住んでいる人々のグループと平均で正確に同じになることはありません)。
これは統計的テストの欠陥ではありません。単なる追加情報なしで(事前)、ヌルとの小さな矛盾の多くをヌルに対する証拠としてとらなければならないという事実の結果。これらの不整合がどれほど些細なものであっても、判明します。
大きなデータの仮説検定では、違いがあるかどうかではなく、望ましいレベルの違いを考慮する必要があります。推定値が正確に0であるというH0には興味がありません。一般的なアプローチは、帰無仮説と観測値の差が特定のカットオフ値より大きいかどうかをテストすることです。
mod.test <- function(x1,x2,dif,...){
avg.x1 <- mean(x1)
avg.x2 <- mean(x2)
sd.x1 <- sd(x1)
sd.x2 <- sd(x2)
sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
n <- length(x1)
t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
ncp <- (dif*sqrt(n)/sd.comb)
p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
return(p.val)
}
n <- 5000
test1 <- replicate(100,
t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)
test3 <- replicate(100,
mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)
test4 <- replicate(100,
mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)
与えるもの:
> table(test1<0.05)
FALSE TRUE
24 76
> table(test2<0.05)
TRUE
100
> table(test3<0.05)
FALSE
100
> table(test4<0.05)
TRUE
100
「仮説テストは、大規模なデータセットに対して価値がないということですか?」
いいえ、それはそれを意味しません。一般的なメッセージは、仮説検定の実施後に下される決定は、p値だけでなく、推定効果サイズを常に考慮に入れる必要があるということです。特に、サンプルサイズが非常に大きい実験では、効果サイズを考慮する必要が劇的になります。もちろん、一般に、手順が「自動化」されにくくなるため、ユーザーはこれを好みません。
このシミュレーション例を検討してください。標準正規分布から100万の観測値のランダムなサンプルがあるとします。
n <- 10^6
x <- rnorm(n)
y <- rnorm(n, mean = 0.01)
t.test(x, y)
Welch Two Sample t-test
data: x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.013554059 -0.008009031
sample estimates:
mean of x mean of y
0.0008947038 0.0116762485
この大きさの2つの母集団平均の違いは、私たちが研究している特定の問題に関連していますか?
しかし、通常、これらの確実な仮説に興味はありません。仮説検定で実際に何をしたいのかを考えると、帰無仮説をより良いものに置き換える場合にのみ、帰無仮説を拒否すべきであることがすぐにわかるでしょう。nullがデータを説明していない場合でも、置き換えがない限り、データを破棄することはできません。今、あなたは常にヌルを「確実な」仮説に置き換えますか?これらの「確実な」仮説を使用してデータセットを超えて一般化することはできないため、おそらくそうではありません。データを印刷するだけではありません。
だから、あなたがすべきことは、もしそれらが真実だったなら、実際に行動することに興味があるという仮説を指定することです。次に、これらの選択肢を互いに比較するための適切なテストを実行します-誤っているか使用できないことがわかっている無関係なクラスの仮説とは比較しません。
結論は基本的に、仮説空間、つまり実際に興味のある仮説を指定する必要があるということです。ビッグデータでは、これは非常に重要なことになるようです。また、適切な結果を得るために、仮説のように比較することが重要であるように思われます。
いいえ。事実、すべての有用な点仮説検定には一貫性があるため、サンプルサイズが十分に大きく、何らかの無関係な効果が存在する場合に重要な結果が表示されます。統計的仮説のテスト(上記のGaetan Lionの回答で既に言及されている)のこの欠点を克服するために、関連性テストがあります。これらは同等性テストに似ていますが、あまり一般的ではありません。関連性テストでは、最小の関連効果のサイズが事前に指定されています。関連性テストは、効果の信頼区間に基づいて行うことができます。信頼区間と関連領域が互いに素であれば、nullを拒否できます。
しかし、van der LaanとRoseは、声明で、真の帰無仮説でさえ試験で検証されていると仮定しています。帰無仮説が当てはまる場合、拒否の可能性はアルファよりも大きくありません。特に大きなサンプルの場合や誤って指定されている場合でも、サンプル分布は母集団分布と系統的に異なることがわかります。
あなたが言及した記事には、標準的な頻度テストに関する限り、有効なポイントがあります。そのため、特定のエフェクトサイズのテストが非常に重要です。例として、3つのグループ間のanovaを示します。グループBはグループAおよびCとは少し異なります。rでこれを試してください。
treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
for (i in c(1:reps)){ #repeat anova test ‘reps’ time
treatA=data.frame(treatment="A", val=rnorm(n))
treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
treatC=data.frame(treatment="C", val=rnorm(n))
all_treatment=rbind(treatA, treatB, treatC)
treatment_aov=aov(val~treatment, data=all_treatment)
aov_summary=summary(treatment_aov)
p=aov_summary[[1]][["Pr(>F)"]][1]
temp_df=data.frame(n=n, p=p)
p_mat=rbind(p_mat, temp_df)
}
}
library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()
彼らが意味するのは、「単純な」形式を持っているが真の確率密度に対応していない帰無仮説の確率密度についてしばしば仮定をするということだと思います。
現在、小さなデータセットでは、この効果を見るのに十分な感度がない場合がありますが、十分なデータセットでは、帰無仮説を拒否し、帰無仮説に関する仮定が間違っていると結論付ける代わりに、新しい効果があると結論付けます。
消費電力はサンプルサイズとともに増加します(他のすべての条件は同じです)。
しかし、「十分な大きさのサンプルサイズについて、効果がないという帰無仮説が真であるものを含むすべての研究が統計的に有意な効果を宣言することを知っています」。間違っています。