p値はポイント推定値ですか?


32

p値の信頼区間を計算できるため、また区間推定の反対は点推定なので、p値は点推定ですか?


6
p値の信頼区間を計算できるとは思わない。データから計算された統計であり、データ生成プロセスを説明するパラメーターではありません。もちろん、統計の推定値を尋ねることができます。
Scortchi -復活モニカ

1
@Scortchi:しかし、たとえばブートストラップを適用してp値の分布を計算し、このブートストラップされた分布の95%パーセンタイル間隔を構築する場合、p値の信頼区間ではない場合- 何であるかそれ
アメーバは

2
@amoeba:信頼区間は未知のパラメーターについてですが、ブートストラップ区間は統計の95%領域の近似値です。
西安

@Scorthci:p値のCIを出力するソフトウェアを見てきました。この場合、おおよそのp値は、CIが広すぎたのであれば、順列検定により算出した(つまり、p値及びp値[ 0.05 1 ])、あなたはより多くの順列を使用します推論する前に。[00.05][0.05,1]
クリフAB

4
@Cliffこれは、分布のp値のquaプロパティの信頼区間ではありません。特定のサンプルの検定のp値の確率的推定量の信頼区間です。それらは似たように聞こえますが、両方とも間隔ですが、まったく異なるものです。
whuber

回答:


23

ポイント推定値と信頼区間は、分布を説明するパラメーター、たとえば平均または標準偏差用です。

ただし、標本平均や標本標準偏差などの他の標本統計とは異なり、p値は興味深い分布パラメーターの有用な推定量ではありません。技術的な詳細については、@ whuberの回答をご覧ください。

検定統計量のp値は、帰無仮説が真であるという仮定の下で計算された、検定統計量の期待値からの偏差を、サンプルで観測されたものと同じくらい大きく観測する確率を与えます。分布全体がある場合は、帰無仮説と一致するか、そうでないかのいずれかです。これは標識変数で記述できます(繰り返しますが、@ whuberの回答を参照してください)。

ただし、p値はインジケーター変数の有用な推定量として使用できません。これは、帰無仮説が真の場合、サンプルサイズが大きくなるとp値が収束しないため一貫性がないためです。これは、統計テストがnullを拒否するか拒否することができるが、確認しないことを示す、かなり複雑な代替方法です。


3
統計的検定のより適切な説明のほとんど(レーマン、キーファーなど)は、「人口」をまったく参照せず、分布のパラメーターを推定するという観点から状況を組み立てます これにより、ランダム性がサンプリングのみによるものである必要はなく、それにより理論がランダム性がモデルの一部である状況により広く適用できるようになります。
whuber

2
しかし、声明では「母集団に関連する確率はまったくない」と明示的に矛盾しています。また、すべての推定量は「サンプルレベルで明示的に定義されている」ことにも注意してください。したがって、この投稿でどのような区別をしようとしているかを判断することは困難です。
whuber

2
もちろん!しかし、分布は人口ではありません。
whuber

4
(-1)@Timの常識的な答えとwhuberの再確認された答えの両方に同意しますが、これを理解するのに苦労しています。(1)「ただし、p値はサンプルレベルで明示的に定義されているため、母集団パラメーターではありません」:これは間違いなく指摘する価値がありますが、「しかし」ということは、p値は「サンプル統計はサンプル統計であるため、サンプル平均は何の推定もできないかのように、サンプル統計であるため、何の推定でもありません。...
Scortchi-モニカの復職

2
(2)「母集団に関連する確率がまったくないためです。固定されているが不明であると見なされます」:(a)「確率がないため、p値はサンプルから計算されません[.. 。] "; (b)@whuberが指摘したように、有限母集団からのサンプリングは特別なケースです。(c)いずれの場合でも、p値は母集団について何も推定しないとあなたが言ったことからは従いません。
Scortchi-モニカの復職

21

はい、p値はポイント推定値であると主張される可能性があります(そして主張されてきました)。

p値が推定する分布の特性を識別するために、漸近的に不偏であると仮定する必要があります。しかし、漸近的に、帰無仮説の平均p値は、(理想的には、いくつかのテストのために、それはいくつかの他の非ゼロの数かもしれない)、他の仮説のためにそれは0。したがって、p値は帰無仮説のインジケーター関数の半分の推定量と見なすことができます。1/20


確かに、この方法でp値を表示するにはある程度の創造性が必要です。問題の推定量をp値を使用して行う決定として表示することで、少し改善できます。基礎となる分布は帰無仮説または対立仮説のメンバーですか?この一連の可能な決定をと呼びましょう。ジャック・キーファーは書いているD

統計学者が観察できる結果の実験があると仮定します。この結果は、ランダム変数またはランダムベクトル ... によって記述されます。Xの確率則は統計学者には知られていませんが、Xの分布関数Fは分布関数の指定されたクラスΩのメンバーであることが知られています。...XXFXΩ

統計的問題は、DFの実際の値またはベクトル値のプロパティの可能な値のコレクションであり、Fに合理的にスムーズに依存している場合、ポイント推定の問題であると言われます。DFF

この場合、は離散的であるため、「合理的に滑らか」は制限ではありません。キーファーの用語は、離散的な決定空間を持つ統計手順を「点推定器」ではなく「テスト」と呼ぶことでこれを反映しています。D

このような定義の制限(および制限)を調べることは興味深いですが、この質問が私たちを誘うので、おそらく、p値が点推定量であると強く主張すべきではありません。便利で従来型。


この質問へのコメントで、Christian Robertは1992年の論文に注目し、そこで彼と共著者はまさにこの観点を取り、指標の推定量としてのp値の許容性を分析しました。以下の参考文献のリンクを参照してください。論文が始まり、

仮説検定のアプローチでは、通常、検定の問題を推定ではなく意思決定の1つとして扱いました。より正確には、正式な仮説検定では、仮説が真であるかどうかに関する結論が得られ、その結論に関連する証拠の尺度は提供されません。この論文では、仮説検定を意思決定理論の枠組み内での推定問題と見なします...

[エンファシスが追加されました。]


参照資料

Jiunn Tzon黄氏、ジョージ・キャセラ、クリスチャン・ロバート、マーティンT.ウェルズ、そしてロジャー・H.ファレル、検査の精度の推定。アン。統計学者。Volume 20、Number 1(1992)、490-509。 オープンアクセス

ジャック・カール・キーファー、統計的推論の紹介。Springer-Verlag、1987年。


2
うーん この見方が役立つかどうかはわかりません。この意味で、p値は、帰無仮説が真である場合に一貫性がないため、適切な推定量ではありません。また、場合によっては(それについて言及します)、サンプルサイズに依存するバイアスもあります。技術的には正しいかもしれませんが、任意のパラメーターのランダムな数値も(ひどい)推定量になる可能性があります。
エリック

10
この質問では、p値が適切な推定量@Erikであるかどうかは問われません。推定量として、明らかな欠陥があります。たとえば、帰無仮説の漸近分散はゼロではありません。ほとんどすべての不偏推定量のバイアスは、サンプルサイズに依存することに注意してください。独立した乱数を推定量と見なすことはできますが、それは何か異なる推定量になります。つまり、独自の平均を(定義により)推定します。したがって、あなたの異議は、目前の質問とは関係がないように見えます。
whuber

7
おそらく「役に立たない」部分を除いて、@ Erikのこれらの点のいずれかについては違いはないと思います。Nick Coxがこのスレッドの別の場所でコメントで指摘しているように、p値を推定量と見なすことができるという意味と、正確に推定できることを考えるのは興味深いことです。これは、p値が何であるか(およびそうでないか)を少しよく理解するのに役立ちます。多くの人は、それを役に立つ練習だと考えています
whuber

7
pIΘ0(θ)

1
@ Xi'an私たちはあなたからわずか23年遅れていると思います...。参考にしていただきありがとうございます!
whuber

11

pμx¯μp<0.05p-あなたはそれらのポイント値にそれほど興味がなく、むしろあなたのデータが帰無仮説に対して十分な証拠を提供しているかどうかを知りたいです。仮説検定シナリオでは、異なる比較することはありません。p値を相互にではなく、それぞれを使用して仮説に関する個別の決定を行います。拒否できるかどうかを知っている限り、船体仮説について何も知りたくありません。これにより、それらの値は決定コンテキストから切り離せなくなり、ポイント推定値とは異なります。ポイント推定値では、値自体に関心があるためです。


5
最初のステートメントは、物事が頻繁に説明される方法を正しくエコーしますが、それでも十分に深くは行きません。ここでの基本的な事実は、サンプリングの変動、つまりサンプルごとの変動です。別のサンプルを取得すると、P値は異なります。推定するものを正確に見るには少し工夫が必要であり、パラメータを推定することとして説明するのは(私の知る限り)従来的ではありませんが、その観点は完全に理にかなっています。@whuberの興味深い答えをご覧ください。(教育のために簡素化する必要性に基づいて、領土全体に泥だらけの言い換えが散らばっています。)
ニックコックス

1
用語の使用方法は興味深く、重要です(ところで、個人的な関心事です)。問題は、P値とは何かということです。これも、このスレッドの他の場所で指摘されています[ここでは避けられないしゃれ]。パラメーターをモデル仕様に現れる未知のものと見なすのは便利な規則ですが、他にも未知のものがあります。
ニックコックス

3
p<0.05p<0.01p<0.001p=0.003p<0.05αp<α
アメーバは、モニカを復活

5
この問題は他の多くの問題と交差しており、その多くは非常に物議を醸しています。1つは、テストの目的は、すべての問題に一致しないイエスまたはノーの決定を下すことであるという理想化です。もう1つの重要な事実は、しきい値レベルの使用は何十年もの間、人々が印刷されたテーブルから公開されたテーブルを使用し、人々がコンピューターを使用しない間、正確なP値が手の届かない範囲にあったということです。
ニックコックス

4
@ 00schneider:p値に指定された間隔が表示された場合、whuberで定義された母集団パラメーターの信頼区間になることはほとんどありません。ティムのポイントは、それらを推定するものとみなす必要はまったくないということです。
Scortchi-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.