なぜストファーの方法が機能するのですか?


8

かなり簡単な質問のように思えますが、実際に考えると、ストファーの方法は私には意味がありません。これが理由です:

両側仮説を仮定します。最初に、値からを計算します。それでは、かなり単純な例を見てみましょう。 2つの値を取ってみましょう。つまり、とはどちらもです。Stoufferの方法によれば、とは次のように結合されます。 P P 0.05 、Z 1 、Z 21.96 Z 1 、Z 2zipp0.05z1z21.96z1z2

Z=i=1kZik=1.96+1.962=2.77

このスコアは値に再度変換され、値はになりますが、各からの値は個別に約ます。p p 0.005 p z i 0.05zpp0.005pzi0.05

この意味で、Stoufferのテストは結果の値を各値とは異なる値に人工的に変更するように見えますが、私にとっては意味がありません。p z ippzi

私はこのテストを誤解していますか、それともどのように/なぜそれが機能するのかを理解するのを手伝ってくれますか?


3
(+1)ただし、この形式のストファーの方法は、両側代替法には適さないことに注意してください。問題は、一方の研究が一方の方向への影響を発見し、もう一方の研究が反対方向への影響を発見した可能性を見落としていることです。これが発生していないことを確認する必要があります。あなたの質問をするために:これはどのような意味で「人工」ですか?意思決定をサポートする証拠組み合わせることが目的であることを覚えておいてください。2つの重要な結果がどちらか一方だけよりも決定に対するより強力なサポートを構成するべきであるというのは理にかなっていますか?
whuber

「人工的」のように書いたとき、2つのサンプルがある場合(N = 2)、Zスコアには常にインフレがあり、どちらかから予想されるよりも常にp値が低くなることを意味しましたzスコア()。2つの有意な結果がどちらか一方よりも強い支持をもたらすことは理にかなっていますが、2つのp値をストファーの方法に実装することは意味がなく、結果はどちらのp-とも完全に異なります値。zi
意志

2
@will、最初の(長い)コメントの最後の文はここでは理解できません。はい、2つの重要な結果を組み合わせると、より強力なサポートが得られることは理にかなっています。つまり、結合されたp値は、2つの値のどちらよりも低くなる可能性があります。だから問題は何ですか?
amoeba 2015

2
私はあなたの直感を開発する1つの方法はこの手順を逆にすることだと考えていました:単一の研究を取り、それを2つのランダムな部分に分割し、次に各部分を個別に分析します。非常に単純な例として、選挙後の調査を考えてみましょう。1000人が投票され、535人が現職に投票し、465人が反対者に投票したと述べています。ランダムな分割は、片方で265-235、もう片方で270-230になる可能性があります。2つの半分の比率が等しいかどうかを検定するためのp値と、全体のp値は何ですか?(で、などRを使用して計算prop.test(535,1000)
whuber

2
比率のサンプル推定値と検定のp値を混同しているようです!! 全体のp値は0.03ですが、2つの半分のp値は0.08と0.19です。
whuber

回答:


7

全体のサンプルサイズが大きいほど、検出力が高くなるため、p値が小さくなります(少なくとも、作業仮説がデータでサポートされている場合)。

これは通常、メタ分析の主要なポイントです。仮説をサポートする複数の弱い証拠が結合されて、それに対する強い証拠になります。


この文脈における「パワー」という統計用語は、p値とは意味が大きく異なるため、この説明が混乱を招くのではないかと心配しています。
whuber

これは、サンプルサイズが2の場合、ストファーの方法の力が常に低下し、p値が常に小さくなることを意味しますか?サンプルサイズが2の場合、より正確な答えを得るにはどうすればよいですか?
意志

「メタサンプル」のサイズは2です。つまり、2つの実験で得られました。組み合わせたサンプルサイズはなので、通常は2よりもはるかに大きくなります。このメタ分析ではp値のみが考慮されるため、利用可能な情報はイベントの生データよりもはるかに低くなります。N N = N 1 + N 2 N 1 + N 2p=0.05NN=N1+N2N1+N2
quazgar 2018年

2

簡単にするために、手段のテストの観点から考えてください。H0の下で治療効果がゼロであるとすると、各z値は治療効果θiの加重推定値になります。ストファーの方法は、これらの治療効果の加重されていない平均を与えるので、個々のz値よりも正確な推定(したがって、p値が小さい)になります。この治療効果の重み付けされていない推定は偏っていますが、重み付けされたストファー法が可能であり、重みが1 /標準誤差(θi)に比例する場合、治療効果の推定は不偏です。ただし、これは、個別のz値が同じ数量のメジャーである場合にのみ意味があります。Stouffer法とFisher法の利点は、さまざまな応答変数が選択されているメタ分析にも適用できることです。


0

メタ分析の観点から考えてみてください。影響がなかった場合()、値は0と1の間で均等に分散されます。したがって、すべての単一分析の10%以上でが得られた場合(潜在的にそれらの多く)、これはおそらく拒否されるべきであるという結論に達します。H0pp<0.1H0

両側検定の問題すら見ていません:この場合、結果は次のように解釈されます:真の平均が0(ガウス分布の例では0)である可能性は低いですが、(どちらからでも)以前の値または結合された値)真の平均がそれより上または下の場合p


-2

両側の結果を組み合わせると、結果がゼロになるので、問題ないと思います(治療により患者の疾患が[右尾]増強するという証拠があるだけでなく、悪化するという証拠もある[左] -tail]、それらは相殺され、より多くの観察が必要となるため、最終結果は特定の仮説に対する証拠にはなりません。


1
これで問題が解決するとは思いません。また、whuberのコメントは、この特定の方法が両側検定で機能しないことを示しています。
mkt-モニカを2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.