統計的検定におけるp値とt値の意味は何ですか?


246

統計コースを受講してから仲間の学生を助けようとした後、頭を大きく叩くような刺激を与える1つの主題が統計仮説テストの結果を解釈していることに気付きました。学生は、与えられたテストに必要な計算を実行する方法を簡単に学びますが、結果を解釈することに夢中になっているようです。多くのコンピューター化されたツールは、「p値」または「t値」の観点からテスト結果を報告します。

統計の最初のコースを受講する大学生に次の点をどのように説明しますか:

  • テスト対象の仮説に関して、「p値」とはどういう意味ですか?高いp値または低いp値を探す必要がある場合はありますか?

  • p値とt値の関係は何ですか?


11
これのかなりの部分は、基本的にp値に関するウィキペディアの記事の最初の文でカバーされており、p値を正しく定義しています。それが理解されれば、多くのことが明らかになります。
Glen_b

1
本を手に入れてください:涙のない統計。それはあなたの正気を救うかもしれません!!

7
@ user48700 涙のない統計がこれをどのように説明しているか要約していただけますか?
マットクラウス14年

5
誰かが時間をかけて、p値関連の質問のグラフを描く必要があると私たちは大学やコーセラデータ理科の授業でアカデミックカレンダーに季節性との相関関係を見ることができます賭ける
Aksakal

回答とコメントにある他の素敵で関連性の高い本の推奨事項に加えて、適切に「とにかくp値とは何か?」と呼ばれる別の本を提案したいと思います。
アレクサンドルブレフ14

回答:


150

値を理解するp

大学の男子学生の平均身長がフィートインチであるという仮説をテストするとします。ランダムに選択された人の生徒の身長を収集し、サンプル平均を計算します(フィートインチであることが判明したとします)。適切な式/統計ルーチンを使用して、仮説の値を計算し、と判明したとします。7 100 5 9 P 0.065710059p0.06

を解釈するため適切に、いくつかの点に留意する必要があります。p=0.06

  1. 古典的な仮説検定の最初のステップは、検討中の仮説が真であるという仮定です。(このコンテキストでは、真の平均高さはフィート7インチであると想定しています。)57

  2. 次の計算を行うことを想像してください。仮説が実際に正しいと仮定して、サンプル平均がフィート9インチを超える確率を計算します(ポイント1を参照)。59

言い換えれば、

P(Samplemean5ft9inches|Truevalue=5ft7inches).

ステップ2の計算は、値と呼ばれるものです。したがって、p0.06は、実験を何度も繰り返した場合(100人の学生をランダムに選択してサンプル平均を計算するたびに)、100回のうち6回サンプルを見ることができることを意味します5フィート9インチ以上を意味します。pp0.06100610059

上記の理解を前提として、仮説が真であるという仮定を保持する必要があります(ステップ1を参照)。さて、は、次の2つのいずれかが発生したことを示します。p=0.06

  • (A)仮説が正しく、非常にまれなイベントが発生した(たとえば、人の学生全員が学生アスリートである)100

または

  • (B)私たちの仮定は正しくなく、私たちが得たサンプルはそれほど珍しいものではありません。

(A)と(B)を選択する従来の方法は、任意のカットオフを選択することです。(A)p > 0.05の場合、(B)p < 0.05の場合を選択します。pp>0.05p<0.05


3
ゆっくりしてください!1週間ほどの間、「ベストアンサー」を選択することは考えていません。
シャーピー

1
今、私は戻って答え全体を読む機会がありました-学生の身長の例では大きな+1です。非常に明確でよくレイアウトされています。
シャーピー

3
いい仕事です...しかし、(式/統計ルーチンに組み込まれている)モデルを追加する必要があります(C)が間違っています。
アンドリューロビンソン

6
t値(または他の検定統計量)は、ほとんど中間段階です。いくつかの仮定の下で、よく知られた分布を持つことが証明されたのは、基本的に統計です。nullの下での検定統計量の分布がわかっているため、標準テーブル(今日ではほとんどがソフトウェア)を使用してp値を導出できます。
ガラ

1
p値は、カイ2乗検定を実行した結果として導出され、カイ2乗テーブルから導出されたものではありませんか?上記で計算された確率がどのようにしてp値自体を示したのでしょうか?
ロンドンの男

123

教師と思慮深い生徒との対話

これまでのところ、このスレッドでは十分なクレヨンが使用されていないという信念で謙虚に提出しました。最後に簡単な図解の概要が表示されます。


学生:p値とはどういう意味ですか?多くの人々は、それが統計以上のサンプル平均を見る」チャンスである、または「帰無仮説が真である場合、この結果を観察する確率」または「私のサンプルの統計[シミュレートされた]分布」、さらに「帰無仮説が真であると仮定して計算されたものと少なくとも同じ大きさの検定統計量を観測する確率」に落ちます

先生:適切に理解されていて、これらのすべての記述は多くの状況で正しいです。

学生:それらのほとんどがどのように関連しているかわかりません。帰無仮説と対立仮説H Aを述べる必要があることを教えてくれませんでしか?彼らは、「以上」または「少なくとも同じくらい」または非常に人気のある「より極端な」というこれらのアイデアにどのように関与していますか?H0HA

先生:それは一般的に複雑に見えるかもしれないので、具体的な例を探求するのに役立つでしょうか?

学生:もちろん。ただし、可能であれば、現実的でシンプルなものにしてください。

先生:仮説検定のこの理論は歴史的に、天文学者が観測誤差を分析する必要から始まったので、そこから始めてみてはどうでしょうか。ある日、科学者が自分の装置の測定誤差を減らす努力を説明した古い文書をいくつか読んでいた。彼は、既知の位置にある星の多くの測定を行い、その位置の前後の変位を記録しました。それらの変位を視覚化するために、彼は、ヒストグラムを描画しました-少し滑らかにすると、このように見えます。

図1:変位のヒストグラム

学生:ヒストグラムの仕組みを覚えています。縦軸に「密度」というラベルが付いており、測定の相対周波数が高さではなく面積で表されていることを思い出させます。

先生:そうです。「異常な」または「極端な」値は、非常に小さな領域を持つ領域に配置されます。これがクレヨンです。面積が全体の10分の1の領域に色を付けることができると思いますか?

学生:もちろん。簡単だ。[図の色。]

図2:学生の最初の色付け。

先生:とても良い!それは私にとって面積の約10%のように見えます。ただし、ヒストグラムの重要な領域は垂直線の間の領域のみであることに注意してください。これらの領域は、水平軸上のこれらの線の間に変位が配置される可能または確率を表します。 つまり、一番下まで色を塗る必要があり、それは半分以上の面積になるということですね。

学生:ああ、なるほど。もう一度試してみましょう。曲線が本当に低いところに色をつけたいと思いませんか?両端で最低です。1つの領域だけを着色する必要がありますか、それをいくつかの部分に分割しても大丈夫でしょうか?

先生:複数のパーツを使用するのは賢明なアイデアです。彼らはどこにいるのでしょうか?

学生(ポインティング):こことここ。このクレヨンはあまりシャープではないため、使用している線をペンで示しました。

図3:生徒の2番目の色付け

先生:いいね!残りの話をさせてください。科学者はデバイスにいくつかの改善を加えた後、追加の測定を行いました。彼は、最初の変位はわずかであり、良い兆候だと考えたが、注意深い科学者であるため、チェックとしてさらに測定を進めたと書いた。残念ながら、これらの他の測定値が失われる-原稿は、この時点で途切れる-と我々が持っているすべては、その単一の番号である0.10.10.1

学生:それは残念です。しかし、それはあなたのフィギュアの変位の広い広がりよりもはるかに優れていませんか?

先生:それが質問です。まず、として何を仮定すべきでしょうか?H0

学生:ええと、懐疑論者は、デバイスに加えられた改善がまったく効果を発揮したのかどうか疑問に思うでしょう。立証責任は科学者にあります:彼は懐疑論者が間違っていることを示したいと思うでしょう。そのため、帰無仮説は科学者にとってはやや悪いと思うようになります。新しい測定値(の値を含む)は、最初のヒストグラムで説明されているように動作するはずです。または、それよりもさらにひどい場合があります。0.1

先生:続けて、元気です。

学生:それで、代替案は、新しい測定値の広がりが少ないということですよね?

先生:とても良い!広がりの少ないヒストグラムがどのように見えるかを描いていただけますか?最初のヒストグラムの別のコピーを次に示します。その上に参照として描画できます。

学生(描画):新しいヒストグラムの輪郭を描くためにペンを使用しており、その下の領域に色を付けています。水平軸上で曲線のほとんどがゼロに近く、その領域のほとんどがゼロの(水平)値に近いようにしました。つまり、広がりを小さくするか、より正確にするということです。

図4:学生の新しいヒストグラム

先生:それは良いスタートです。ただし、確率を示すヒストグラムの総面積は1でなければならないことに注意してください。したがって、最初のヒストグラムの総面積は1です。新しいヒストグラム内の面積はどれくらいですか?11

学生:半分以下だと思います。私はそれが問題だと思っていますが、それを修正する方法がわかりません。私は何をすべきか?

先生:トリックは、新しいヒストグラムを古いヒストグラムより高くして、その合計面積がなるようにすることです。ここでは、説明のためにコンピューター生成バージョンを紹介します。1

図5:教師の新しいヒストグラム

学生:なるほど:縦に伸ばしたので、形は実際には変わりませんが、赤い領域と灰色の領域(赤の下の部分を含む)は同じ量になりました。

先生:そうです。帰無仮説の写真(青色で広がり)と対立仮説の一部(赤色で広がりの少ない)を見ています。

学生:選択肢の「一部」とはどういう意味ですか?それだけではない代替仮説?

先生:統計学者と文法は混ざっていないようです。:-)真剣に、彼らが「仮説」によって意味することは、通常、大きな可能性の完全なセットです。ここで、代替手段(前に非常によく述べたように)は、測定値が以前よりも「広がっていない」ことです。しかし、どれだけ少ないのですか?多くの可能性があります。ここで、別の例を示します。黄色のダッシュで描いた。前の2つの間にあります。

図6:代替の2つの要素とnull

学生:なるほど。スプレッドの量はさまざまですが、スプレッドが実際にどれくらいになるかは事前にはわかりません。しかし、なぜこの写真に面白い陰影を付けたのですか?

先生:ヒストグラムがどこでどのように異なるかを強調したかった。代替ヒストグラムがヌルより低い場合はグレーで、代替がより高い場合は赤で影を付けました。

学生:なぜそれが重要なのですか?

先生:両方の尾の最初のヒストグラムをどのように色付けしたのか覚えていますか?[論文を見てください。]ああ、ここにあります。同じようにこの写真に色を付けましょう。

図7:ヌルと代替色。

学生:私は覚えています:これらは極端な値です。ヌル密度が可能な限り小さく、その領域の10%で色付けされている場所を見つけました。

先生:これらの極端な分野での代替案について教えてください。

学生:クレヨンで覆われているので見づらいですが、私が色付けした領域に代替物が存在する可能性はほとんどないようです。それらのヒストグラムは値軸に対して真下にあり、それらの下に領域の余地はありません。

先生:その考えを続けましょう。私はあなたに言った場合、仮に、測定値がずれていたこと、そして、それが最も可能性が高いから来たものだったこれら3つのヒストグラムのどの選択するあなたを尋ね、それはでしょうか?2

学生:最初の1つ-青いもの。これは、最も広がって、それは一つだけだだ発生し、任意のチャンスを持っているようです。2

先生:原稿のの値はどうですか?0.1

学生:うーん...それは別の話です。3つすべてのヒストグラムは、地上でかなり高くなっています。0.1

先生:はい、結構です。しかし、値が0から0.2の間など、近くにあると言ったとします。これらのグラフからいくつかの確率を読み取るのに役立ちますか?0.100.2

学生:確かに、私はエリアを使用できるからです。から0.2までの各曲線の下の面積を見積もる必要があります。しかし、それはかなり難しいようです。00.2

先生:そこまで行く必要はありません。どのエリアが最大かわかりますか?

学生:もちろん、最も高い曲線の下にあるもの。3つの領域はすべて同じベースを持っているため、曲線が高いほど、その下とベースの下にある領域が多くなります。これは、最も高いヒストグラム(赤い破線で描いたもの)が変位に対して最も可能性の高いヒストグラムであることを意味します。私はあなたがこれでどこに行くのか見ていると思いますが、少し心配しています:ここに示されている1つまたは2つだけでなく、すべての選択肢のすべてのヒストグラムを見る必要はありませんか?どうすればそれを行うことができますか?0.1

先生:あなたはパターンを拾うのが得意だから、教えてください。測定装置がますます正確になるにつれて、そのヒストグラムはどうなりますか?

03/4

11

図8:尤度比

先生(続き):選択肢がヌルよりもありそうな場所を教えてください。

スチューデント(カラーリング):ここの真ん中です。そして、これらはもはやヒストグラムではないので、エリアではなく高さを見るべきだと思うので、水平軸で値の範囲をマークしています。しかし、どのように中間の色を塗りつぶすかをどのように知ることができますか?どこで着色をやめますか?

図9:マークアップされた尤度比プロット

先生:確固たるルールはありません。それはすべて、結論をどのように使用するか、そして懐疑論者がどれほど激しいかによって異なります。しかし、ゆっくりと座って何を達成したかを考えてください。大きな尤度比の結果は代替案の証拠であり、小さな尤度比の結果は代替案に対する証拠あることがわかります。できる限り、帰無仮説の下で発生する可能性が低く、代替の下で発生する可能性が比較的高い領域に色を付けることをお願いします。最初に色付けした図に戻り、会話の始めに戻ると、ヌルの2つのテールが「極端な」ために色付けしました。彼らはまだ良い仕事をしますか?

3.03.0

図10:改善されたマークアップ

先生:それは何を表していますか?

学生:元のヒストグラムの下の領域の10%だけを描画するように私に依頼してきました。だから今、私は代替案が発生する可能性が高いと思われるエリアの10%を描きました。その分野で新しい測定が行われたとき、私たちは代替案を信じるべきだと言っていると思います。

先生:そして、それに対して懐疑論者はどのように反応すべきですか?

学生:懐疑論者は決して自分が間違っていると認める必要はありませんか?しかし、彼の信仰は少し揺さぶられるべきだと思います。結局、私たちはそれを、私が描いたばかりの領域内に測定値入る可能性があるが、nullが真であるときにそこにいる可能性が10%だけになるように調整しました。そして、代替案が真実である場合、そこにいる可能性がより大きくなります。科学者が装置をどれだけ改良したかに依存するため、その可能性がどれほど大きいかを伝えることはできません。私はそれが大きいことを知っています。したがって、証拠は懐疑論者に反するでしょう。

先生:わかった。あなたが学んだことを完全に明確にするために、あなたの理解を要約してもらえますか?

学生:対立仮説を帰無仮説と比較するには、ヒストグラムを比較する必要があることを学びました。選択肢の密度をヌルの密度で除算します。これを「尤度比」と呼びます。良いテストを行うために、10%のような小さな数、または懐疑論者を揺さぶるのに十分なものを選ぶべきです。次に、尤度比が可能な限り高い値を見つけ、10%(または何でも)が色付けされるまで色付けします。

先生:そして、そのカラーリングをどのように使用しますか?

学生:先ほど思い出したように、色は縦線の間になければなりません。カラーリングの下にある値(水平軸)は、帰無仮説に対する証拠です。その他の値-関係するすべてのヒストグラムを詳細に調べることなく、それらが意味するものを言うのは難しいです。

0.1

学生:それは私が最後に色付けした範囲内だから、科学者はおそらく正しかったと思うし、装置は本当に改善されたと思う。

先生:最後にもう1つ。あなたの結論は、10%を基準、つまりテストの「サイズ」として選択することに基づいていました。多くの人は、代わりに5%を使用することを好みます。1%を好む人もいます。あなたは彼らに何を伝えることができますか?

00.10.050.10.080.1。彼らは私がしたのと同じ結論には至らないだろう:彼らは実際に変化が起こったという十分な証拠がないと言うだろう。

0.08

学生:ありがとう。私はまだこのすべてを完全に理解しているとは思いませんが、あなたは私に多くのことを考えさせてくれました。

先生:さらに先に進みたい場合は、Neyman-Pearson Lemmaをご覧ください。おそらく今理解する準備ができているでしょう。


あらすじ

ztt=0.1

図11:領域としてのp値。

0t=0.1が達成された。p値は、nullヒストグラムの下の影付き領域の面積です。nullがtrueであると仮定すると、どの選択肢がtrueであるかに関係なく、尤度比が大きくなる傾向がある結果を観察する機会です。特に、この構造は対立仮説に密接に依存しています。可能な代替手段を指定せずに実行することはできません。


4
これは、この質問に対するこれまでの回答のいずれも、一般的に、p値の一般に耳にする「またはより極端な」側面に取り組んでいなかったという、別の回答に関する私のコメントをうまく処理しました。(「お茶のテスト」の答えには良い特定の例が含まれていました。)私は特に、この例が意図的に構築され、「より極端な」は「より大きい」または「ゼロから遠い」のかなり反対を意味することを強調しています。
シルバーフィッシュ

4
H1H1

3
いつものように洞察に満ちたユニークな、時間を割いて信じられないほど役立つ答えを書いてくれてありがとう。なぜ教科書がこれらのレベルの明快さと直観に近い場所で提供されるように書かれていないのか、本当に不思議です。
ジェレミーラドクリフ

この例の可能性の定義へのリンクは有益だと思います
-baxx

1
コメントで皮肉を使用することは危険です@baxx。丁寧にエレガントに行うために十分なスペースがないためです。したがって、通常、コメントが皮肉なものであると想定するのは、明示的に指示されない限り、良い考えではありません。コメントがあなたを助けることを意図していると仮定してください。私が提供した検索の最初のヒットをたどるだけであれば、あなたの質問には答えられると思います。
whuber

44

このトピックに触れる前に、生徒がパーセンテージ、小数、オッズ、分数の間を移動するのを楽しんでいるようにします。彼らがこれに完全に満足していない場合、彼らはすぐに混乱する可能性があります。

フィッシャーの古典的なお茶の実験を通して、仮説検定(およびp値と検定統計量)を初めて説明するのが好きです。これにはいくつかの理由があります。

(i)実験を通して作業を進め、用語を定義することは、これらの用語のすべてを最初から定義する方が理にかなっていると思います。(ii)仮説検定の重要なポイントを克服するために、確率分布、曲線下の面積などに明示的に依存する必要はありません。(iii)「観察されたものよりも極端な」というこのばかげた概念をかなり賢明な方法で説明します(iv)学生が勉強しているものの歴史、起源、バックストーリーを理解するのが好きだと思ういくつかの抽象的な理論より。(v)生徒の出身分野や問題は関係なく、お茶の例に関連している可能性があります(NBの一部の留学生は、この独特のイギリスのミルクティーの学校で苦労しています)。

[注:私はもともと、デニス・リンドリーの素晴らしい記事「実験データの分析:紅茶とワインの評価」からこのアイデアを得ました。彼はなぜベイジアン法が古典的方法よりも優れているのかを示しています。

バックストーリーは、Muriel Bristolが1920年代のある日の午後、ロザムステッド実験場でお茶を飲みにフィッシャーを訪れるというものです。フィッシャーが最後に牛乳を入れたとき、彼女は牛乳が最初に(または最後に)注がれたかどうか、そして前者を好んだと言うことができると不満を言いました。これをテストするために、彼は彼の古典的なお茶の実験を設計しました。そこでは、Murielに一対のティーカップが提示され、彼女はどちらに最初にミルクが追加されたかを特定する必要があります。これは、6組のティーカップで繰り返されます。彼女の選択は正しい(R)または間違っている(W)であり、結果はRRRRRWです。

6

(a)帰無仮説(Murielが推測している)が真であり、確率の小さいイベントが発生した、または

(b)帰無仮説は偽であり、ミュリエルには差別的な力があります。

p値(または確率値)は、帰無仮説が真である場合にこの結果(RRRRRW)を観測する確率です。これは、上記の(a)で参照される小さな確率です。この例では、0.016です。確率が小さいイベントはめったに(定義により)発生しないため、状況(b)は状況(a)よりも発生した内容のより好ましい説明になる可能性があります。帰無仮説を棄却するとき、実際には対立仮説と呼ばれる反対の仮説を受け入れます。この例では、Murielには差別的な力があり、これが対立仮説です。

重要な考慮事項は、「小さな」確率として何を分類するかです。イベントが発生する可能性は低いと言ってもよいと判断するカットオフポイントは何ですか?標準ベンチマークは5%(0.05)であり、これは有意水準と呼ばれます。p値が有意水準よりも小さい場合、帰無仮説を偽であるとして拒否し、対立仮説を受け入れます。p値が有意水準よりも小さい場合、つまり帰無仮説が真である場合に観測された確率がカットオフポイントよりも小さい場合、結果が「有意」であると主張するのが一般的な用語です。5%を使用することは完全に主観的であることを明確にすることが重要です(1%および10%の他の一般的な有意水準を使用しているように)。

フィッシャーは、これが機能しないことを認識しました。1つの間違ったペアで起こりうるすべての結果は、差別的な力を同様に示唆していました。したがって、上記の状況(a)に関連する確率は6(0.5)^ 6 = 0.094(または6/64)であり、5%の有意水準では有意ではありません。この問題を克服するために、フィッシャーは、6の1エラーが識別力の証拠と見なされる場合、エラーがないこと、つまりp値を計算するときに、観察されるよりも識別力を強く示す結果を含める必要があると主張しました。これにより、次のいずれかの理由付けが修正されました。

(a)帰無仮説(Murielが推測している)が真であり、観測されたものよりも極端な、またはそれ以上のイベントの確率が小さい、または

(b)帰無仮説は偽であり、ミュリエルには差別的な力があります。

お茶の実験に戻ると、このセットアップでのp値は7(0.5)^ 6 = 0.109であり、5%のしきい値ではまだ有意ではありません。

次に、生徒にコイン投げなどの他の例を使って、コインが公正かどうかを判断させます。これにより、帰無仮説または代替仮説、p値、有意水準の概念が掘り下げられます。次に、連続変数のケースに移り、検定統計量の概念を導入します。すでに正規分布、標準正規分布、およびz変換の詳細について説明したので、単にいくつかの概念をまとめるだけの問題です。

検定統計量、p値を計算し、意思決定(重要/重要でない)を行うだけでなく、学生に、空白のゲームを埋めて、公開された論文を学習させます。


2
私は非常に古いスレッドをいくらか復活させていることを知っていますが、ここに行きます...私はあなたの答えを本当に楽しんでいましたが、その中のt値の部分が懐かしいです: t検定部分について誰も答えなかった
ソシ14

@sosiこれはおそらく、p値がt値よりもはるかに一般的であるためです。それは車について、そしてフォードフィエスタのブレーキについて質問するようなものです。
推測

2
ppp

27

口頭での説明や計算は、p値が何であるかを直感的に理解するのに本当に役立ちませんでしたが、シミュレーションに関連するコースを受講すると、私は本当に焦点を合わせました。これにより、帰無仮説によって生成されたデータを実際に確認し、平均値などをプロットすることができました。シミュレートされたサンプルの次に、私のサンプルの統計がその分布に落ちた場所を見てください。

これの主な利点は、学生が数学とテスト統計分布を一瞬忘れて、手元の概念に集中できることだと思います。確かに、そのようなものをシミュレートする方法を学ぶ必要があり、まったく異なる学生のセットで問題が発生します。しかし、それは私にとってはうまくいき、私はシミュレーションを数え切れないほど使用して、統計を他の人に大成功で説明しました(例えば、「これはあなたのデータのようです。これはポアソン分布がオーバーレイのように見えます。ポアソン回帰を行うには?」)。

これはあなたが提起した質問に正確に答えるわけではありませんが、少なくとも私にとっては、些細なことです。


10
これを説明するためにシミュレーションを使用することに心から同意します。しかし、最後の例についてのちょっとしたメモ:私は、(学生だけでなく)人々は、特定の分布仮定、例えばポアソンを、わずかにポアソン分布するか、条件付きポアソン分布にするかを区別するのが難しいことに気付きます。回帰モデルでは後者のみが重要であるため、ポアソンではない一連の従属変数値が必ずしも懸念の原因となる必要はありません。
共役

1
私はそれを知らなかったことを告白しなければなりません。過去数日間、このサイトに関するあなたのコメントを本当に感謝している-あなたが固執することを願っています。
マットパーカー

@MattParkerシミュレーションを使用して理解を深めることに焦点を合わせた学習リソースを知っていますか?それとも、いくつかのpython / Rスクリプトを組み合わせて、一連のテストを実行するだけの場合ですか?
baxx

1
@baxx [Seeing Theoryウェブサイト(Daniel Kunin)](students.brown.edu/seeing-theory/)には、このための興味深いツールがいくつかありますが、まだ作成中です。そうでなければ、私は主にシミュレーション用のRの組み込みツールを試してみました-それらを使用して、何らかの方法がどのように機能するかを自分で証明したり、予測変数がランダム変数に置き換えられた場合にどうなるかを確認したりしてください。申し訳ありませんが、私はこれのためのより良いリソースを知っていたらいいのに!
マットパーカー

@MattParkerありがとう。うん-その中の鶏と卵のビット、あなたが(私が仮定する?)実験を構築するには、少なくともそれらを書くのに十分な取得する必要があります。心配しないでください.....リンクしたサイトをチェックしただけでいいです、ありがとう
-baxx

16

p値の適切な定義は、「帰無仮説が真であると仮定して計算されたものと少なくとも同じ大きさの検定統計量を観測する確率」です。

それに関する問題は、「検定統計量」と「帰無仮説」の理解を必要とすることです。しかし、それは簡単に理解できます。帰無仮説が真の場合、通常「母集団Aのパラメーターは母集団Bのパラメーターに等しい」などの場合、統計を計算してそれらのパラメーターを推定します。「これらはこれである」という検定統計を見る確率違う」?

たとえば、コインが公正な場合、100回のトスで60のヘッドが表示される可能性はどのくらいですか?それは、帰無仮説「コインは公正」または「p = .5」をテストしています。ここで、pはヘッドの確率です。

その場合の検定統計量は、ヘッドの数になります。

さて、あなたが「t-value」と呼んでいるものは、「t分布」からの値ではなく、一般的な「検定統計量」であると仮定します。それらは同じものではなく、「t-value」という用語は(必ずしも)広く使用されておらず、混乱を招く可能性があります。

「t-value」と呼んでいるものは、おそらく「test statistic」と呼んでいるものです。p値を計算するには(単なる確率であることに注意してください)、分布と、確率を返す分布にプラグインする値が必要です。これを行うと、返される確率はp値になります。同じ分布の下では、異なる検定統計量が異なるp値を返すため、それらが関連していることがわかります。より極端な検定統計量はより低いp値を返し、帰無仮説が偽であることをより強く示します。

ここでは、片側および両側のp値の問題を無視しました。


11

900個の黒い大理石と100個の白い大理石が入ったバッグがあるとします。つまり、大理石の10%が白です。ここで、1枚の大理石を取り出し、それを見て色を記録し、別の大理石を取り出し、色を記録するなどを想像して、これを100回行います。このプロセスの終わりに、理想的には10、つまり100の10%になると予想される白いビー玉の数がありますが、実際には8、13、または単にランダム性によるものであれば何でもかまいません。この100回の大理石撤退実験を何度も何度も繰り返して、実験ごとに描かれた白い大理石の数のヒストグラムをプロットすると、約10を中心とするベルカーブがあることがわかります。

これはあなたの10%の仮説を表しています:1000個のビー玉を含むバッグの10%が白である場合、100個のビー玉をランダムに取り出すと、10個の白いビー玉が選択され、4個ほどを与えるか取ります。p値とは、この「すべてを与えるか、4個ほど取る」ことです。たとえば、以前に作成したベルカーブを参照すると、5%未満の白いビー玉が5%以下であり、別の5%未満が15個以上の白いビー玉、つまり90%を超えると判断できます。 100個の大理石を選択すると、6〜14個の白い大理石が含まれます。

今、誰かが未知の数の白いビー玉を含む1000個のビー玉の袋を突っ込むと仮定すると、これらの質問に答えるツールがあります

i)100個未満の白いビー玉がありますか?

ii)100個以上の白いビー玉がありますか?

iii)バッグには100個の白いビー玉が入っていますか?

袋から100個のビー玉を取り出し、このサンプルのうち何個が白かを数えるだけです。

a)サンプルに6〜14個の白がある場合、バッグに100個の白いビー玉があり、6〜14の対応するp値が> 0.05であるという仮説を拒否することはできません。

b)サンプルに白が5個以下の場合、バッグに100個の白いビー玉があり、5個以下の対応するp値は<0.05であるという仮説を拒否できます。バッグには10%未満の白いビー玉が含まれていると予想されます。

c)サンプルに15個以上の白がある場合、バッグに100個の白いビー玉があり、15個以上の対応するp値が<0.05であるという仮説を拒否できます。バッグには、10%を超える白いビー玉が含まれると予想されます。

Baltimarkのコメントに応えて

上記の例を考えると、およそ:

ゲッター5個の白いボール以下の確率4.8%

4以下の確率1.85%

0.55%の確率で3以下

0.1%の確率で2以下

6.25%の確率で15以上

3.25%の確率で16以上

1.5%の確率で17以上

0.65%の確率で18以上

0.25%の確率で19以上

20%以上の0.1%の確率

21%以上の0.05%の確率

これらの数値は、Rで実行される単純なモンテカルロルーチンによって生成された経験的分布と、サンプリング分布の結果の分位から推定されました。

元の質問に答えるために、5個の白いボールを描くと仮定すると、1000個の大理石の袋に10%の白いボールが実際に含まれている場合、100個のサンプルで5個だけを取り出す可能性は約4.8%です。これは、p値<0.05に相当します。あなたは今から選択する必要があります

i)本当に袋の中に10%の白いボールがあります。

または

ii)10%の白いボールが実際にはありえないほど、白いボールをほとんど描いていない(10%の白いボールの仮説を拒否する)


まず第一に、これは単なる大きな例であり、p値と検定統計量の概念を実際に説明するものではありません。第二に、5個未満または15個以上の白いビー玉が得られた場合、帰無仮説を棄却すると主張しているだけです。これらの確率を計算している分布は何ですか?これは通常のdistで近似できます。10を中心とし、標準偏差は3です。拒否基準は、ほとんど厳密ではありません。
バルティマーク

これは単なる例であり、説明のために数字5と15を空中から選んだだけであることに同意します。時間があれば、2番目の回答を投稿します。
babelproofreader

10

p値があなたに告げないのは、帰無仮説が真である可能性がどれほど高いかです。従来の(フィッシャー)有意性テストフレームワークでは、最初に帰無仮説が真であると仮定してデータを観測する可能性を計算します。これはp値です。データが帰無仮説の下で観測される可能性が十分に低い場合、帰無仮説がおそらく偽であると仮定することは直感的に合理的であると思われます。これは完全に合理的です。(1-p)> 0.95の場合、統計学者は従来からしきい値を使用し、「有意水準95%で帰無仮説を拒否」します。ただし、これは実際に合理的であることが証明された単なる慣習です。帰無仮説が偽である確率が5%未満であることを意味するわけではありません(したがって、対立仮説が真である確率は95%です)。

対立仮説が真である確率にp値をマッピングする関数f()をイメージングします。この関数が厳密に減少していること(帰無仮説の下での観測がより可能性が高いほど、対立仮説が真である可能性がより低いこと)、および0から1の間の値を与えると推定することは合理的です(推定を与えるため)確率)。ただし、f()について知っているのはそれだけです。したがって、pと対立仮説が真である確率との間には関係がありますが、キャリブレーションされていません。これは、p値を使用して、null仮説と代替仮説の妥当性に関する定量的なステートメントを作成できないことを意味します。

警告:確率変数ではないため、仮説が真である確率について話すことは、実際には頻繁主義者の枠組みの範囲内ではありません-それは真実であるかそうでないかのどちらかです。それで、仮説の真実の確率について話したところで、私は暗黙のうちにベイジアン解釈に移りました。ベイジアンとフリークエンティストを混ぜることは正しくありませんが、私たちが本当に望んでいるのは、仮説の相対的な妥当性/確率の定量的表示であるため、常にそうする誘惑があります。しかし、これはp値が提供するものではありません。


7

統計では、何かが絶対に確実であるとは決して言えないため、統計学者は別のアプローチを使用して、仮説が真であるかどうかを判断します。データでサポートされていない他のすべての仮説を拒否しようとします。

これを行うために、統計的検定には帰無仮説と対立仮説があります。統計的検定から報告されるp値は、帰無仮説が正しかった場合の結果の尤度です。そのため、小さなp値が必要です。それらが小さければ小さいほど、帰無仮説が正しかった場合の結果は少なくなります。p値が十分に小さい場合(つまり、帰無仮説が正しかった場合に結果が発生する可能性は非常に低い)、帰無仮説は拒否されます。

このようにして、帰無仮説を定式化し、その後拒否することができます。帰無仮説が棄却された場合、最良の説明として対立仮説を受け入れます。ただし、帰無仮説は偶然に結果を生成する可能性があるため、対立仮説は決して確実ではないことを覚えておいてください。


Pr(Tt|H0)Pr(T=t|H0)

5

古いトピックを復活させるには少し不安がありますが、ここからジャンプしので、リンクの質問への回答としてこれを投稿します。

p値は具体的な用語であり、誤解の余地はないはずです。しかし、p値の定義の口語的な翻訳が多くの異なる誤解につながることは、どういうわけか神秘的です。問題の根本は、「少なくとも帰無仮説に反する」または「少なくともサンプルデータにあるものと同じくらい極端」などのフレーズの使用にあると思います。

たとえば、ウィキペディアは言う

... p値は、帰無仮説が実際に真である場合に、観測されたサンプル結果(またはより極端な結果)を取得する確率です。

p

「より極端な結果」を間接的な言論行為のようものに任せたほうが良いと思います。だから、私のテイクは

p値は、帰無仮説が真である「想像上の世界」で見たものを見る確率です。

xμ0=20N(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

t-statをとして計算しますt0=nX¯μ0s

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

|t0|t0t(9)

pvalue=Pr(|t0|2.97)=0.01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

p値が小さいためx、仮説世界でサンプルが描画されることはほとんどありません。したがって、仮想世界が実際に実際の世界であった可能性は非常に低いと結論付けます。


2
+1ですが、「見ているものを見る確率」を書き、「より極端な」部分を省略すると、この文は厳密に言えば偽りになります(そして、混乱が少なくても、誤解を招く可能性があります)。あなたが見ているものを見る確率ではありません(これは通常ゼロです)。それは、あなたが見ているものを「またはもっと極端に」見る確率です。これは多くの人にとって紛らわしいかもしれませんが、それでも重要です(そして、この「より極端な」表現の背後に隠れている主観性の程度について延々と議論することができます)。
アメーバ14

@amoeba適切な例を提供すれば、「観測されたサンプル結果(またはより極端な結果)を取得する」ためのプロキシとして役立つと思いました。たぶん、より良い表現が必要です。
ハシャー14

1
私は@amoebaと同じ観察をするつもりでした。「より極端な」部分は、生徒の身長とティーパーティーの回答の例でうまく処理されますが、このスレッドの回答がそれについての明確な一般的な説明、特に異なる対立仮説をカバーするものに当たったとは思いません。「より極端な」部分は多くの学生にとって概念上の固着点であることを示唆するこの答えに同意します。
シルバーフィッシュ14

@Silverfish:学生だけでなく。この「より極端な」ビットの主観性/客観性の問題について議論しているベイジアン対頻度論者の暴言をいくつ読んだことがあります!
アメーバ14

1
@Silverあなたの批判に同意し、それに対処しようとする回答を投稿しました。「より極端な」が問題の核心です。
whuber

4

概念を次の順序で説明するシーケンスに従うと便利です。(1)zスコアと、通常の曲線を想定したzスコアの上下の割合。(2)母集団標準偏差がわかっている場合のサンプリング分布の概念、および特定のサンプルのzスコア(1標本z検定)(3)1標本t検定とaの尤度母集団の標準偏差が不明な場合のサンプル平均(特定の産業統計学者の秘密のアイデンティティとギネスが統計に適している理由に関する話が豊富にあります)。(4)2標本t検定と平均差の標本分布。入門者がt検定を容易に理解できるかどうかは、このトピックに備えて準備された基礎と大きく関係しています。

/ *恐怖の生徒のインストラクターがオフになります* /


4

また、シミュレーションは教育に役立つこともわかっています。

nN(μ,1)σ2=1H0:μ=μ0

ttstat:=n(X¯μ0)N(0,1)H0pΦ(tstat)pnorm(tstat)

N(μ0,1)μ0=2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

0

テスト対象の仮説に関して、「p値」とはどういう意味ですか?

オントロジー的な意味(真実とは?)では、何も意味しません。仮説検定は、検証の仮定に基づいてます。これは通常、テスト自体の一部ですが、使用しているモデル(回帰モデルなど)の一部でもあります。単にこれらを仮定しているだけなので、p値がしきい値を下回っている理由がnullがfalseであるためかどうかはわかりません。p値が低いため、nullを拒否しなければならないことを無条件に推論することは非セキュリティです。たとえば、モデル内の何かが間違っている可能性があります。

認識論的な意味(私たちは何を学ぶことができますか?)では、それは何かを意味します。あなたは、テストされていない前提が真実であることを条件に知識を獲得します。(少なくとも今まで)現実のすべての建物を証明することはできないので、すべての知識は必然的に条件付きになります。「真実」に到達することは決してありません。


-1

大理石や硬貨、高さの測定を含む例は、数学の練習には適していると思いますが、直感を構築するには適していません。大学生は社会に質問するのが好きですよね?政治的な例を使用してはどうですか?

ある候補者が、何らかの政策が経済に役立つと約束するキャンペーンを実施したとしましょう。彼女が選出され、政策が制定され、2年後、経済は活況を呈しています。彼女は再選の準備ができており、彼女の方針が皆の繁栄の理由であると主張しています。彼女を再選すべきですか?

思慮深い市民は、「まあ、経済が順調に進んでいるというのは本当ですが、それを本当にあなたの政策に帰することができますか?」と言うべきです。これに真に答えるには、「過去2年間で経済がなければ経済はうまくいったのだろうか?」答えが「はい」である場合(たとえば、関連性のない新しい技術開発のために経済が活況を呈している場合)、政治家によるデータの説明を拒否します。

つまり、1つの仮説(政策が経済に役立った)を検証するには、その仮説がゼロである世界のモデルを構築する必要があります(政策は成立しませんでした)。次に、そのモデルの下で予測を行います。その代替世界でこのデータを観測する確率をp値と呼びます。p値が高すぎる場合、仮説に納得しません。ポリシーは何の違いも生じませんでした。p値が低い場合、仮説を信頼します。ポリシーが不可欠でした。


1
pが「その代替世界でこのデータを観測する確率をp値と呼ぶ」と定義されていることと、結論の強さ(特にnullを拒否できないこと)に同意しません。
シルバーフィッシュ14

@Silverfish詳細を教えていただけますか?おそらく、p値をその観測値またはより極端な観測値にする確率と呼ぶ方が正しいでしょう。しかし、あなたはより深い批判を持っているように聞こえます。
cgreen

1
元の質問はp値とは何かを尋ねているため、その定義を明確に理解することが重要だと思いました。「より極端な」と言うだけでは、「より極端な」が何を意味するのかを説明することなく、それだけではあまり役に立ちません。これは、このスレッドのほとんどの答えの弱点です。whuberの答えと「お茶のテスト」だけが、「より極端な」ことも重要である理由を本当に説明しているようです。
シルバーフィッシュ

また、あなたの結論はあまりにも強く表現されていると感じました。nullを拒否した場合、それに対して重要な証拠がありますが、それが偽であることはわかりません。nullの拒否に失敗した場合、それは確かにnullが真であることを意味しません(そうかもしれませんが)。より一般的なコメントとして、あなたが説明しているテストは、非常に抽象的な言葉で、テストの実行方法を学んでいる学習者にははっきりしない可能性が高いと感じています。明確に定義された検定統計量の欠如は、t統計をどのように解釈するかを尋ねる元の質問にはうまく合いません。
シルバーフィッシュ

私がとても気に入っているこの回答の特徴は、nullモデルが実際に真であると(主観的に)信じていなくても、n値モデルを使用してp値が計算されるという明確な説明です。ファクトテストの統計はモデルの下で計算されると、多くの学生が苦労する重要なポイントだと思います。
シルバーフィッシュ

-1

p

pX

0c1,FX|H0(inf{x:FX|H0(x)c})=c
FX|H0XH0

X

  1. p[0,1]
  2. [0,1]p

p


P

@whuber入力いただきありがとうございます。定義を編集しましたが、今ではもっと意味があるはずです!
nalzok

1
X[0,1].

(θ,θ+1)θR,θ=0,X=(X1,,Xn).X(X)=X1.[0,1]H0:n=1X1=2:2

-4

p値は、ほとんどのアナリストがそうであるように神秘的ではありません。これは、t検定の信頼区間を計算する必要はなく、帰無仮説を棄却できる信頼水準を単に決定する方法です。

図。テストを実行します。p値は、Q変数では0.1866、R変数では0.0023になります。(これらは%で表されます)。

null hypoを拒否するために95%の信頼レベルでテストしている場合;

Q:100-18.66 = 81.34%

Rの場合:100-0.23 = 99.77%。

95%の信頼レベルで、Qは拒否する81.34%の信頼を与えます。これは95%を下回り、受け入れられません。NULLを受け入れます。

Rは、nullを拒否する99.77%の信頼度を与えます。明らかに望ましい95%を超えています。したがって、nullを拒否します。

ヌルハイポを拒否する信頼レベルまで測定する「逆の方法」によるp値の読み取りを示しました。


6
QR

@cardinalは重要なポイントを指摘しています。あなたはnullを受け入れません。
パトリッククーロンベ

-8

******仮説のテストにおけるp値は、テストの感度を測定します。p値が低いほど、感度が高くなります。有意水準が0.05に設定されている場合、0.0001のp値は、テスト結果が正しい可能性が高いことを示します******


6
-1これは明らかに間違っています。上位の回答を最初に読むことをお勧めします。
モモ14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.