データサイズが巨大な場合、回帰の統計的有意性はどうなりましたか？

13

私は、次のようにwhuberが興味深い点を指摘した大規模回帰（リンク）に関するこの質問を読んでいました。

「実行する統計テストのほとんどは非常に強力であるため、「重要な」効果を特定するのはほぼ確実です。重要度ではなく、効果の大きさなどの統計的重要性にもっと集中する必要があります。」

--- whuber

これが証明できるものなのか、それとも実際の一般的な現象なのか疑問に思っていました。

証明/議論/シミュレーションへのポインタは本当に役立つでしょう。

regression statistical-significance

— ベイズリック
ソース

1

効果の大きさは重要です。（Glen_bの回答に+1）。簡単な例を与えるために：私たちは肥満であれば、それはそれは持っていた場合でもヶ月後0.05キロの減量が生じた場合、我々は新しい、より高価な食事に当社の既存の食生活を変えないだろう

p

$p$ -値

\leq 0.0000000001

$\leq 0.0000000001$ 。私たちはまだ肥満で、ただ貧しくなります。私たちが知っているように、このようなわずかな体重減少は、記録がエレベータのない建物の地面から同じ建物の4階に移動した健康クリニックに起因する可能性があります。（ニースの質問+ 1）

— usεr11852が復活モニック言う

10

かなり一般的です。

小さいがゼロではない効果（つまり、テストで検出できるヌルからのいくらかの逸脱）があると想像してください。

サンプルサイズが小さい場合、拒否される可能性はタイプIのエラー率に非常に近くなります（ノイズが小さな影響を支配します）。

サンプルサイズが大きくなると、推定効果はその母集団効果に収束する必要がありますが、同時に、推定効果の不確実性は小さくなります（通常は）、null状況が母集団からランダムに選択されたサンプルでまだもっともらしい推定効果に十分に近い可能性が実質的にゼロに減少するまで。 $\sqrt{n}$

つまり、ポイントnullを使用すると、最終的に拒否が確実になります。これは、ほとんどすべての実際の状況で、nullからある程度の偏差が本質的に常に存在するためです。

— Glen_b -Reinstate Monica
ソース

「...ほとんどすべての実際の状況では、本質的に常にヌルからのある程度の逸脱があるためです。」そこにあり、それを見ることができます。それはかなり良いプロパティでしょうか？

— トライラリオン

ここでの「ヌル」とは、係数がゼロに等しいという帰無仮説を指しますか？

— アラシュホワイダ

Glen_bの答えは一般的であり、点nullの仮説検定に適用できると思います。はい、回帰のコンテキストでは、nullは係数がゼロに等しいことです。私自身の理解けれども...

— Bayesric

4

これは証明ではありませんが、実際にサンプルサイズの影響を示すのは難しくありません。少し変更を加えたWilcox（2009）の簡単な例を使用します。

不安の一般的な尺度として、研究者が大学生の人口の平均が少なくとも50人であると主張していると想像してください。この主張のチェックとして、10人の大学生がと。（Wilcox、2009：143） $H_0: \mu \geq 50$ $\alpha = .05$

この分析にはt検定を使用できます。

T = \frac{\bar{X} - μ_{o}}{s / \sqrt{n}}

$T = \frac{\bar X - \mu_o}{s/\sqrt{n}}$

そのサンプルを仮定すると、平均（）45であり、サンプル標準偏差（）11であり、 $\bar X$ $s$

T = \frac{45 - 50}{11 / \sqrt{10}} = - 1.44。

$T = \frac{45-50}{11/\sqrt{10}}=-1.44.$

あなたが含まれる表を見ればスチューデントの重要な値での分布自由度を $t$ $ν$ 、あなたがのためにいることがわかります、。そうで、私たちは、帰無仮説を棄却することができません。ここで、同じサンプル平均と標準偏差がありますが、代わりに100個の観測があると仮定します。 $v = 10 -1$ $P(T \leq - 1.83)= .05$ $T=-1.44$

T = \frac{45 - 50}{11 / \sqrt{100}} = - 4.55

$T = \frac{45-50}{11/\sqrt{100}}= -4.55$

以下のために、、我々は、帰無仮説を棄却することができます。他のすべてを一定に保ち、サンプルサイズを大きくすると、分母が小さくなり、サンプリング分布のクリティカル（棄却）領域に値を持つ可能性が高くなります。なお、 $v = 100 - 1$ $P(T \leq -1.66) = .05$ は、平均の標準誤差の推定値です。だから、あなたは、例えば、回帰係数の仮説検定は、線形回帰で得られ、同様の解釈が適用されるかを確認することができます $s/\sqrt{n}$ 。 $T = \frac{\hat\beta_j-\beta_j^{(0)}}{se(\hat\beta_j)}$

Wilcox、RR、2009。基本統計：従来の方法と現代の洞察を理解する。Oxford University Press、オックスフォード。

— TEG-モニカの復職
ソース

1

答えてくれてありがとう。あなたの答えは、Glen_bの答えの具体的なデモを提供します。サンプルサイズが非常に大きい場合、nullからの小さな偏差（実際には常に小さな偏差があります）が有意な効果として捕捉されます。

— ベイズリック

2

回帰では、モデル全体で、テストはFで行われます。ここに

F = \frac{\frac{R S S_{1} - R S S_{2}}{p_{2} - p_{1}}}{\frac{R S S_{2}}{n - p_{2}}}

$F = \frac{\frac{RSS_1-RSS_2}{p_2 - p_1}}{\frac{RSS_2}{n-p_2}}$

R S S_{1}

$RSS_1$

R S S_{2}

$RSS_2$

— ピーター・フロム-モニカの復職
ソース

1

答えてくれてありがとう。ただし、「Nが大きくなるとFが大きくなる」ことに懐疑的です。Nが増加するとRSS2も増加しますが、Fが大きくなる理由は明確ではありません。

— ベイズリック

@Peter Flomこれはunrealtedですが、あなたはここで見ることができますstats.stackexchange.com/questions/343518/...

— user3022875