p値を互いに比較することはどのような意味がありますか?


20

私には2つの集団(男性と女性)があり、それぞれにサンプルが含まれています。サンプルごとに、AとBの2つのプロパティがあります(1年生の成績平均とSATスコア)。私はAとBに別々にt検定を使用しました:両方とも2つのグループの間に大きな違いがありました。P = 0.008とし、B 、P = 0.0021000p=0.008p=0.002

プロパティBはプロパティAよりも差別的(より重要)であると主張しても大丈夫ですか?それとも、t検定は、はいまたはいいえ(有意または有意でない)尺度であるだけですか?

更新:ここのコメントおよびウィキペディアで読んだことによると、答えは無意味なp値を下げて効果サイズを報告する必要があると思います。何かご意見は?


+私は英語を母国語としないことをご容赦ください:)
Dov

問題ありません:私が行った(マイナーな)編集が意味のある方法であなたの質問を変えたと感じたら、気軽に修正してください。
whuber

測定した結果は何ですか?(つまり、A / A以外、またはB / B以外で定義されたグループ間で異なるのは何ですか?)1000サンプルすべてで測定されていますか、それとも一部が欠落していますか?
ゲスト

3
2つの異なる効果サイズ、または2つの異なる効果サイズの信頼区間を報告することをお勧めします。2つのデータセットのそれぞれの結果が同じである場合(これですか?)
ピーターエリス

2
森林プロットを使用すると、統計的有意性効果サイズを非常に便利に表示できます!95%CIを示すということは、2ではなく4つの数字を使用していることを意味しますが、誰もがほのめかしているように、実験を比較するために必要な情報の範囲を十分に表しています。
AdamO 14年

回答:


20

多くの人は、値が有意(p < α)かそうでないかを主張するため、2つのp値を相互に比較することは(まったく)意味がありません。これは間違っています; ある場合にはそうします。pp<αp

特定のケースでは、値を直接比較できることは間違いありません。サンプルサイズが固定(n = 1000)の場合、p値はt値に単調に関連し、コーエンのdで測定される効果サイズに単調に関連します。具体的には、d = 2 t / pn=1000ptd。これは、p値がエフェクトサイズと1対1で対応しているため、プロパティAのp値がプロパティBの値よりも大きい場合、Aのエフェクトサイズが小さくなることを確認できます。プロパティBよりもd=2t/npp

これがあなたの質問の答えになると思います。

いくつかの追加ポイント:

  1. これは、サンプルサイズが固定されている場合にのみ当てはまります。あるサンプルサイズのある実験でプロパティAのp = 0.008を取得し、別のサンプルサイズの別の実験でプロパティBのp = 0.002を取得した場合、それらを比較するのはより困難です。np=0.008p=0.002

    • 質問が母集団でAまたはBの方が「差別的」であるかどうか(つまり、AまたはBの値を見ることで性別をどれだけうまく予測できるか)である場合、効果の大きさを調べる必要があります。単純な場合、効果の大きさを計算するには、nを知るだけで十分です。pn

    • 質問がより曖昧な場合:どの実験がヌルに対してより「証拠」を提供しますか?(これは、たとえばA = Bの場合に意味があります)-問題は複雑で論争の的になりますが、定義による、nullに対する証拠のスカラーサマリーであるため、p値は低いと言えます、サンプルサイズが異なっていても、証拠はより強力です。pp

  2. Bの効果サイズがAの効果サイズよりも大きいと言っても、それが著しく大きいという意味ではありません。このような主張をするには、AとBを直接比較する必要があります。

  3. 値に加えて、効果のサイズと信頼区間を報告(および解釈)することは常に良い考えです。p


3
単調性についての良い点と、最後の3つの良い点。さて、再:「あなたは確信できます」という声明:サンプルについては十分に真実ですが、「かなりそう」?(つまり、人口にとって信頼できる意味があるのでしょうか?)#2で簡単にこれに対処しました。これのより完全な扱いは大歓迎です。乾杯
〜– rolando2

4
これは正しいことですが、この場合にのみ正しいことを明確にしようとしました(これにも注意してください)。ミシェルは、一般的にこの方法でp値を使用すべきではないという価値のあるポイントを挙げていたと思います。
GUNG -復活モニカ

1
p

1
@AndrewMおそらく。回答の冒頭部分を編集しました。あなたは今それが好きかどうかを確認してください。
アメーバは、モニカーを復活させる

0

この質問に対する完全に異なる答えを持っているので、ちょうど私を投票しなかった人のおかげで、この観点から間違っているので、元の答えを削除しました。

「私の研究ではAまたはBの方が識別力が高かった」という質問のみを扱っているこの質問の文脈では、サンプルではなく国勢調査を扱っています。したがって、p値を生成するために使用されるような推測統計の使用は無関係です。推定統計は、サンプルから取得した推定値から人口推定値を推定するために使用されます。母集団に一般化したくない場合、これらの方法は不要です。(国勢調査の欠損値に関する特定の問題がいくつかありますが、これらはこの状況では無関係です。)

母集団で結果を得る確率はありません。得られた結果を得ました。したがって、結果の確率は100%です。信頼区間を構築する必要はありません-サンプルの推定点は正確です。単に何も推定する必要はありません。

「どの変数が私が持っているデータでうまく機能した」という特定のケースでは、必要なことは単純な要約形式で結果を見ることだけです。テーブルで十分な場合もあれば、箱ひげ図のようなグラフの場合もあります。


-1

pに違いがありますが、その違いが何を意味するのかは明確ではありません(大きく、小さく、重要ですか?)

たぶんブートストラップを使用する:

データから(置換あり)を選択し、テストをやり直し、pの差(p_a-p_b)を計算し、100-200回繰り返します

デルタpのどの部分が0より小さいかを確認します(AのpがBのpを下回ることを意味します)

注:これは完了しましたが、専門家ではありません。


1
この回答では、p値を比較する 1つの方法について説明していますが、元の質問には答えが残っていないようです。手順は意味があり、結果をどのように解釈するのでしょうか。
whuber

-1

コメントには長すぎるため、回答を追加しました!

ミシェルは良い反応を示しましたが、多くのコメントはp値について出てくるいくつかの一般的な議論を示しています。基本的なアイデアは次のとおりです。

1)p値が小さいということは、結果が多かれ少なかれ有意であることを意味しません。それは、少なくとも極端な結果が得られる可能性が低いことを意味します。重要度は、選択した重要度レベル(テストを実行する前に選択した重要度)に基づくバイナリの結果です。

2)効果の大きさ(多くの場合、標準偏差の#に標準化されています)は、2つの数値の「違い」を定量化するための良い方法です。したがって、数量Aの効果サイズが.8標準偏差であり、数量Bの効果サイズが.5標準偏差である場合、数量Aよりも数量Bよりも2つのグループの差が大きいと言えます。標準測定値は:

.2標準偏差=「小さな」効果

.5標準偏差=「中」効果

.8標準偏差=「大」効果


1
しかし、固定サンプルサイズが与えられると、p値は効果サイズに直接単調に関連します!
アメーバは、モニカを復活
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.