サンプルサイズを2倍にすると、p値にどのような影響がありますか

それらがOLS回帰[帰無仮説検定]の2つの変数間の根本的な関係であるとすると、サンプルサイズを2倍にした場合のp値にはどのような影響がありますか？（最初のサンプルが母集団の代表であり、後続のサンプルも代表であると仮定します）。

根本的な関係がある限り、サンプルサイズを増やすとp値が小さくなることは明らかですが、pとnの関係の性質をさらに理解することに興味があります。

least-squares power-analysis

— キレニア
ソース

各回帰係数に対して計算される関連する値について考えていると思います。答えはわかりませんが、この問題を自分で調べたい場合は、サンプルサイズがその値に2つの方法で作用することを検討する必要があります。まず、Nを大きくすると、標準誤差が小さくなり、結果としてが大きくなります。第二に、所与のために、N増加は、DF（時折呼ば増加するにおける用語に増加れる、-distribution）をそれに関連付けられた値。

p

$p$

t

$t$

p

$p$

t

$t$

t

$t$

v

$v$

t

$t$

p

$p$

t

$t$

— Ian_Fin 2016

@ Ian_Fin、p値の減少に伴う自由度の増加、その他はすべて同じに保たれます。

— not_bonferroni

@not_bonferroniグッドスポット！「ますます重要になる」という点で考えていて、間違った単語をタイプしていたに違いない。

— Ian_Fin 2016

標本サイズを増やすと、帰無仮説が真の場合にp値が増加し、帰無が偽の場合に減少する傾向があります。ただし、p値はランダムであるため、これらは単なる傾向です。p値のいずれかの懸念行動：特に、この質問を読み取るための2つの鋭く異なる方法がある先験的及び他の懸念予測 p値の変化を特定のデータセットに回帰を実行した後は：換言すれば、条件付きで与えられたp値。どの解釈が意図されたものですか？

— whuber

@whuber：nullがtrueのときにp値が増加するのはなぜでしょうか？たとえば、すべての古典的な仮定が満たされている場合、t分布から構築されたp値により、任意のに対して標準の均一なp値が期待されますか？

n

$n$

— Christoph Hanck 2016

回答:

T検定の場合、「サンプルサイズを2倍にすると、検定統計量が増加する」のような規則があります。これは、サンプルサイズとp値の間に単純な関係があると考えるかもしれません。 $\sqrt{2}$

実際、サンプルサイズとp値の関係は、サンプルサイズと検定統計量の関係、および検定統計量とp値の関係に依存します。これらの関係は、テストごとに異なります。

最も単純なケースである片側Z検定では、この関係が何であるかを確認できます。確率変数に平均と分散ます。の平均がと大きく異なるかどうかをテストするとします。検定統計量はです。 $X$ $\mu$ $\sigma^2$ $X$ $\nu$ $Z$ $\frac{(\bar{x}-\nu)\sqrt{n}}{\sigma}$

p値は、1から統計のCDFを引いたものに等しくなります（これは、平均間の差が正であると想定し、差が負の場合、同様の引数が機能します）。 $Z$

正規分布の場合、CDFはです。erf（x）はエラー関数です。 $\Phi(t)=0.5+0.5\cdot erf(\frac{x-\mu_t}{\sigma_t \sqrt{2}})$

等しいという帰無仮説の下では、統計に平均と分散があることを意味し。の実際の分布は、平均があり、分散がです。 $Z$ $0$ $1$ $Z$ $\frac{(\bar{x}-\nu)\sqrt{n}}{\sigma}$ $1$

平均間の差の効果サイズはです。効果のサイズを、の期待値はです。 $\frac{(\bar{x}-\nu)}{\sigma}$ $b$ $Z$ $b\sqrt{n}$

以下のために CDFは。erf（x）はエラー関数です。 $Z$ $\Phi(z)=0.5+0.5\cdot erf(\frac{z}{\sqrt{2}})$

もちろん、統計量は確率変数です。ここでは、サンプルサイズと期待値のp値の関係を見ていきます。 $Z$ $Z$

したがって、統計のCDF は $Z$ $\Phi(z)=0.5+0.5\cdot erf(\frac{b\sqrt{n}}{\sqrt{2}})$

これは、p値とサンプルサイズの関係です。

$p=0.5-0.5\cdot erf(\frac{b\sqrt{n}}{\sqrt{2}})$

関係はの値によって異なります。非常に大きな場合、系列展開を使用して制限動作を確認できます。wolfram alphaによると、 $n$ $n$

$\lim_{n \to \infty}p = e^{-0.5b^2n} \left(\frac{1}{eb\sqrt{n}}+O\left(\frac{1}{(b\sqrt{n})^2} \right) \right)$

これは、効果が0に近づくにつれて急速に減衰します。もちろん、効果の大きさに大きく依存します。もちろん、平均値の差が大きい場合、サンプリングが向上するにつれてp値はより速く縮小します。

繰り返しますが、これはZおよびTテストのみに適用され、他のテストには適用されません。

— ヒュー
ソース

基本原則により、（1）p値はランダムな量であることがわかります。（2）それらはサンプルサイズに依存します。しかし、（3）それらは実際の自然の状態にも依存します。つまり、帰無仮説が真であるか偽であるかだけでなく、どの特定の分布が結果を支配するかに依存します。答えが（1）または（3）のいずれかを認識していないように見えるため、その情報がどれほど有益であるか、または信頼できるかを判断することは困難です。

— whuber

@whuber私の記法は間違っているので、少し不明確です。（3）について述べますが、自然の状態は、人口平均間の差の効果サイズです。あなたは正しい（1）、p値を確率変数のように扱っていません。「サンプルサイズを2倍にすると、T統計が増加するというような経験則を探していました。。予想されるp値に対するサンプルサイズの影響を調べていました。今後の読者のためにこれを明確にできるように、あなたがそれを指摘したのは良いことです。

\sqrt{2}

$\sqrt{2}$

— Hugh

OPの質問は、WLSベースのテストを検討するときにZまたはTテストに直接接続されているOLSモデルからのパラメーターのテストに関するものでした。ただし、他のZまたはTテストと同様に、回帰係数の標準誤差が係数に直接比例するかどうかを言えるでしょうか。

1 / \sqrt{n}

$1/\sqrt{n}$

— AdamO 2016

まず、t値への影響を調べてみましょう。その後、すぐにp値への影響を推測できます。

これはおそらく、最も顕著な機能を示す適切に選択されたシミュレーションの例によって最もよく示されます。私たちが見ているので、表示されません間違った尾を見ているので、（と私たちは基本的に電源に関連するプロパティを検討している）、それは（「正しい」方向に）片側のテストに焦点を当てに理にかなっている偽多くのアクションと私たちに多くの関心を伝えることはありません。 $H_0$

したがって、ここでは、統計が時々重要になるほど効果が大きい状況（n = 100）があります。次に、最初のサンプルに、最初のサンプルと同じサイズのx値の同じ連続分布からの2番目の描画（ここでは均一ですが、観察された効果には重要ではありません）を追加し、サンプルサイズを2倍にしますが、完全に最初のサンプルを含みます。

私たちが観察しているのは、p値が下がるということではなく、下がる傾向がある（対角線の上より下にあるポイントが多い）ことだけです。t値の変動が減少しているため、0の領域は少なくなっています。多くのp値が上昇しています。データを追加すると、重要ではないサンプルのかなりの数が重要になりましたが、重要なサンプルのいくつかは重要ではなくなりました。

[ここでは、定性的に問題はより広く類似していますが、単純な回帰における勾配係数のt統計を調べています。]

t値の代わりにp値のプロットは、本質的に同じ情報を伝えます。実際、上の軸に適切な間隔で目盛りを付けると、代わりにp値でラベルを付けることができます...しかし、上部（および右）は低いp値を表示し、下部（/左）はより大きなp値でラベル付けされています。[実際にp値をプロットすると、隅まですべてがつぶれるだけで、何が起こっているのかははっきりしません。]

— Glen_b-モニカの復活
ソース

一般的に、それぞれのヌルがfalseの場合、下図のようにp値の減衰を期待し、私はサイズのサンプルの倍数のために少しのシミュレーション研究からの平均p値を報告する場合n=25に至るまでbb*n=25にbb*n=29*25、単純な線形回帰係数が等しいために0.1になり、エラー標準偏差はます。 $\sigma_u=0.5$

p値は下からゼロで制限されているため、減衰は最終的には平坦化する必要があります。

90％の信頼区間（青色の網掛け部分）は、さらに、p値の変動性もサンプルサイズとともに減少することを示しています。

明らかに、が小さいか大きい場合、pの値はを増やすと速く0に近くなるため、プロットの外観はより平坦になります。 $\sigma_u$ $n$ bb

コード：

reps <- 5000
B <- seq(1,30,by=2)
n <- 25

sigma.u <- .5
pvalues <- matrix(NA,reps,length(B))
for (bb in 1:length(B)){
     for (i in 1:reps){
          x <- rnorm(B[bb]*n)
          y <- .1*x + rnorm(B[bb]*n,sd=sigma.u)
          pvalues[i,bb] <- summary(lm(y~x))$coefficients[2,4]     
     }
}
plot(B,colMeans(pvalues),type="l", lwd=2, col="purple", ylim=c(0,.9))
ConfidenceInterval <- apply(pvalues, 2, quantile, probs = c(.1,.9))
x.ax <- c(B,rev(B))
y.ax <- c(ConfidenceInterval[1,],rev(ConfidenceInterval[2,]))
polygon(x.ax,y.ax, col=alpha("blue",alpha = .2), border=NA)

— クリストフ・ハンク
ソース

p値はランダムな量であるため、プロットの縦軸は、p値自体ではなく、予想される p値の推定値を表示することを説明することが重要です。これに照らして、特定の p値間の変動を示すことは、分析の重要な補助となります。

B

$B$

— whuber

@whuber、それは私が "expect"と書いて強調しようとしたものですが、うまくいけば、今はこのようにもう少し明示的です。

— Christoph Hanck 2016

+1しますが、「平坦化」はlog(p)、pそれ自体の代わりにプロットすると、おそらく消えます。

— amoeba 2016

@amoeba：はい、log-pvaluesに対して同じスクリプトを実行すると、直線になるように見えます。

— クリストフハンク