タグ付けされた質問 「p-value」

頻度主義仮説検定では、 p-valueは、帰無仮説が真であるという仮定の下で、観測された結果よりも極端な(またはそれ以上の)結果の確率です。

7
なぜp値は発見が偶然によるものである確率であると学生に教えるのが悪いのですか?
誰かにp値が確率であることを生徒に教えるのが良い考えではない理由を簡潔に説明してもらえますか(彼らの発見は[偶然]チャンスによる)。私の理解では、p値は確率です(より極端なデータを取得する|帰無仮説は真です)。 私の本当の関心は、それが前者であることを彼らに伝えることの害である(それはそうではないという事実は別として)。

4
素粒子物理学で証拠を受け入れるための「
ニュースレポートによると、CERN は明日、ヒッグス粒子が5つの証拠で実験的に検出されたことを発表すると発表しています。その記事によると:σσ\sigma 5は、CMSおよびATLAS検出器が見ているデータがランダムノイズではない99.99994%の可能性に相当します。5は、何かが科学的な「発見」と正式にラベル付けされるために必要な確実性です。σσσ\sigmaσσ\sigma これは、超厳格ではありませんが、物理学者は、統計的な手法を「仮説検定」の設定標準を使用することを言っているようだにに、その対応(2がテイル)?それとも他の意味がありますか?0.0000006 Z = 5αα\alpha0.00000060.00000060.0000006z= 5z=5z=5 もちろん、科学の多くでは、アルファを0.05に設定することは日常的に行われています。これは "two- "の証拠に相当しますが、それが呼ばれたことは聞いたことがないです。アルファのより厳密な定義が標準である他のフィールド(粒子物理学以外)はありますか?5ルールが粒子物理学でどのように受け入れられたのかについてのリファレンスを知っている人はいますか?σσσ\sigmaσσ\sigma 更新:簡単な理由でこの質問をしています。私の本の直観的生物統計学(ほとんどの統計の本のように)には、通常の「P <0.05」ルールがいかにarbitrary 意的であるかを説明するセクションがあります。私は科学的分野のこの例を追加したいと思います。そこでは、はるかに(ずっと!)小さい値が必要と考えられています。しかし、例が実際にはより複雑で、ベイジアンメソッドを使用している場合(以下のコメントが示唆するように)、それはまったく適切ではないか、より多くの説明が必要になります。αα\alpha

2
p値を理解する
p値を説明する多くの資料があることを知っています。しかし、この概念は、さらに明確にしないとしっかりと把握するのは容易ではありません。 ウィキペディアのp値の定義は次のとおりです。 p値は、帰無仮説が真であると仮定して、少なくとも実際に観測されたものと同じくらい極端な検定統計量を取得する確率です。(http://en.wikipedia.org/wiki/P-value) 私の最初の質問は、「少なくとも実際に観察されたものと同じくらい極端な」という表現に関するものです。p値の使用の根底にあるロジックの私の理解は次のとおりです。p値が小さい場合、帰無仮説を仮定して観測が行われた可能性は低く、観測を説明するために代替仮説が必要になる場合があります。p値がそれほど小さくない場合は、帰無仮説を仮定するだけで観測が行われた可能性が高く、観測を説明するのに対立仮説は必要ありません。したがって、誰かが仮説を主張したい場合、彼/彼女は帰無仮説のp値が非常に小さいことを示さなければなりません。この見解を念頭に置いて、あいまいな表現の私の理解は、p値がmin[P(X&lt;x),P(x&lt;X)]min[P(X&lt;x),P(x&lt;X)]\min[P(X<x),P(x<X)]、統計のPDFが単峰性の場合、XXXは検定統計量、xxxは観測から取得した値です。これは正解?正しい場合、統計のバイモーダルPDFを使用することはまだ可能ですか?PDFの2つのピークが適切に分離されており、観測値が2つのピーク間の低確率密度領域のどこかにある場合、p値はどの間隔で確率を与えますか? 2番目の質問は、ヴォルフラムMathWorldからp値の別の定義についてです。 変量が偶然に厳密に観測値以上の値をとる確率。(http://mathworld.wolfram.com/P-Value.html) 「偶然に」というフレーズは「帰無仮説を仮定する」と解釈されるべきだと理解しました。そうですか? 3番目の質問は、「帰無仮説」の使用を考えています。誰かがコインが公正であることを主張したいと仮定しましょう。彼は、頭の相対頻度が0.5であるという仮説を表現しています。帰無仮説は、「頭の相対頻度は0.5ではありません」です。この場合、帰無仮説のp値の計算は困難ですが、対立仮説の計算は簡単です。もちろん、2つの仮説の役割を入れ替えることで問題を解決できます。私の質問は、元の対立仮説のp値に直接基づいた拒否または受け入れ(帰無仮説を導入せず)はそれがOKかどうかです。うまくいかない場合、帰無仮説のp値を計算するときのそのような困難に対する通常の回避策は何ですか? このスレッドでの議論に基づいて、より明確な新しい質問を投稿しました。


2
データを視覚化した後に統計テストを実行する-データの??
例としてこの質問を提案します。 ボストンの住宅価格データセットなどのデータセットがあり、そこに連続変数とカテゴリ変数があるとします。ここには、1〜10の「品質」変数と販売価格があります。品質のカットオフを(任意に)作成することで、データを「低」、「中」、「高」の品質の家に分けることができます。次に、これらのグループを使用して、販売価格のヒストグラムを相互にプロットできます。そのようです: ここで、「低」は、および「高」である&gt; 7「品質」スコアに。これで、3つのグループのそれぞれの販売価格の分布ができました。中品質の住宅と高品質の住宅では、場所の中心に違いがあることは明らかです。さて、これをすべて終えた後、「うーん、場所の中心に違いがあるようです!どうして平均値でt検定をしないのですか?」と思います。次に、平均に差がないという帰無仮説を正しく拒否するように見えるp値を取得します。≤ 3≤3\leq 3&gt; 7&gt;7>7 さて、データをプロットするまで、この仮説をテストすることを何も考えていないとします。 このデータはdrですか? 「もし、私は以前に家に住んでいた人間だから、高品質の家はもっと費用がかかるに違いない。データをプロットするつもりだ。ああ、違う!時間だ!」 t検定に!」 当然、この仮説を最初からテストするためにデータセットが収集された場合、データのredではありません。しかし、しばしば私たちに与えられたデータセットで作業しなければならず、「パターンを探す」ように言われます。このあいまいなタスクを念頭に置いて、データのdrを回避する方法を教えてください。データをテストするためのホールドアウトセットを作成しますか?視覚化は、データによって提案された仮説をテストする機会のスヌーピングとして「カウント」されますか?

2
「p値」の正確な値は無意味ですか?
私は2009年に統計学者と話し合い、p値の正確な値は無関係であると述べました。重要なことはそれが有意であるかどうかだけです。つまり、ある結果が別の結果よりも重要になることはありません。たとえば、サンプルは同じ母集団からのものであるかそうでないかです。 私はこれにいくつかの不安を持っていますが、おそらくイデオロギーを理解できます 5%のしきい値は任意です。つまり、p = 0.051は重要ではなく、p = 0.049は、一方の結果が重要でもう一方が重要ではないにもかかわらず、観測または実験の結論を実際に変更すべきではありません。 私が今これを取り上げる理由は、私がバイオインフォマティクスの修士課程を勉強していることであり、現場の人々と話した後、彼らが行うすべての統計の正確なp値を取得する決意があるようです。たとえば、p &lt;1.9×10 -12の p値を「達成」する場合、結果がどの程度重要であり、この結果が非常に有益であることを示したいと考えています。この問題は、次のような質問で例示されています。なぜ2.2e-16より小さいp値を取得できないのですか?、偶然にもこれは1兆分の1未満であるということを示す値を記録したいと考えています。しかし、この結果は10億分の1ではなく1兆分の1未満であるということを示すことにはほとんど違いがありません。 p &lt;0.01は、これが発生する可能性が1%未満であることを示し、p &lt;0.001は、このような結果が前述のp値よりもさらに低いことを示しますが、結論を完全に引き出す必要があることを理解できます違う?結局、それらは両方とも有意なp値です。正確なp値を記録したいと考える唯一の方法は、ボンフェローニ補正を行うことです。これにより、比較の回数によってしきい値が変化し、タイプIエラーが減少します。しかし、それでも、しきい値の有意性より12桁小さいp値を表示したいのはなぜですか? また、Bonferroni補正自体を少しarbitrary意的に適用していませんか?最初は修正が非常に保守的であると見なされているため、オブザーバーが多重比較に使用できる有意水準にアクセスするために選択できる他の修正があります。しかし、このため、研究者が使用したい統計に応じて、何かが重要になるポイントは本質的に可変ではありません。統計は解釈に対してそれほど開かれているべきですか? 結論として、統計は主観的ではないはずではありませんが(主観的である必要性は多変量システムの結果であると思いますが)、最終的には明確化が必要です。そして、正確なp値を記録しようとすることに関して、p &lt;0.001で十分ですか?

4
p値が小さいほど説得力がありますか?
値、タイプ1のエラー率、有意水準、検出力の計算、効果の大きさ、およびフィッシャーとネイマンピアソンの議論について読んでいます。これにより、私は少し圧倒されました。テキストの壁をおaびしますが、実際の質問に移る前に、これらの概念の現在の理解の概要を提供する必要があると感じました。ppp 私が収集したものから、値は単に驚きの尺度であり、帰無仮説が真であれば、少なくとも極端な結果が得られる確率です。フィッシャーはもともと、それが継続的な測定であることを意図していた。ppp Neyman-Pearsonフレームワークでは、事前に有意水準を選択し、これを(任意の)カットオフポイントとして使用します。有意水準はタイプ1のエラー率に等しくなります。これは、長時間の実行頻度によって定義されます。つまり、実験を1000回繰り返して帰無仮説が真である場合、それらの実験のうち約50がサンプリングのばらつきのために大きな効果をもたらします。有意水準を選択することにより、一定の確率でこれらの誤検知から身を守ります。値は伝統的にこのフレームワークには現れません。PPP 0.01の値が見つかった場合、これはタイプ1のエラー率が0.01であることを意味するものではなく、タイプ1のエラーは事前に示されます。p値は0.05 *、0.01 **、0.001 ***として報告されることが多いため、これはフィッシャー対NPの議論における主要な議論の1つであると思います。これは、特定の有意値ではなく、特定のp値で効果が有意であると人々を誤解させる可能性があります。ppppppppp また、値がサンプルサイズの関数であることも認識しています。したがって、絶対測定として使用することはできません。小さなp値は、大規模なサンプル実験での小さな、無関係な効果を示している可能性があります。これに対抗するには、実験のサンプルサイズを決定するときに、出力/効果サイズの計算を実行することが重要です。P値は、効果の大きさではなく、効果があるかどうかを示します。Sullivan 2012を参照してください。ppppppPPP 私の質問: p値が驚きの尺度(より小さい=より説得力がある)であると同時に、絶対的な測定値と見なすことができないという事実をどのように調整できますか?ppp 私が混乱しているのは、次のとおりです。小さな値の方が大きな値よりも自信がありますか?漁師の意味では、そうです、私たちはもっと驚いています。NPフレームワークでは、より低い有意水準を選択することは、偽陽性に対してより強力に保護していることを意味します。ppp しかし、一方で、値はサンプルサイズに依存します。それらは絶対的な尺度ではありません。したがって、0.001593が0.0439 より重要であると単純に言うことはできません。しかし、これはフィッシャーのフレームワークで暗示されていることです。このような極端な価値にもっと驚かれることでしょう。用語についても、議論があります非常に重要な誤った名称であること:それは「非常に重要」であるとの結果を参照するために間違ってますか?ppp 一部の科学分野の値は0.0001より小さい場合にのみ重要と見なされるのに対し、他の分野では0.01前後の値はすでに非常に重要であると見なされていると聞きました。ppp 関連する質問: 統計的検定に対するフィッシャーとネイマン・ピアソンのアプローチ間の「ハイブリッド」は、実際には「インコヒーレントなミッシュマッシュ」ですか? FisherとNeyman-Pearsonフレームワークを使用する場合 「p値」の正確な値は無意味ですか? タイプIエラーに関連したp値の頻度特性 2つの平均の信頼区間とP値 なぜp値が低いほどnullに対する証拠ではないのですか?Johansson 2011の引数(@amoeba提供)

4
なぜ低いp値はヌルに対する証拠ではないのですか?ヨハンソン2011からの議論
Johansson(2011)は、「Hail the不可能:p値、証拠、および可能性」(ここにもジャーナルへのリンクがあります)で、値が低いほど、nullに対する強力な証拠と見なされることが多いと述べています。Johanssonは、統計テ​​ストが値出力した場合よりも統計テストが値出力した場合、nullに対する証拠が強いと考えることを意味します。Johanssonは、値をnullに対する証拠として使用できない4つの理由をリストしています。pppppp0.010.010.01ppp0.450.450.45ppp pppは帰無仮説の下で均一に分布しているため、帰無の証拠を示すことはできません。 pppは帰無仮説のみに条件付けられ、したがって、証拠は別の仮説に関連する仮説の証拠または反対の証拠であるという意味で常に相対的であるため、証拠を定量化するのには適していません。 pppは、エビデンスの強度ではなく、エビデンスを取得する確率(nullの場合)を示します。 pppは、観察されていないデータと主観的な意図に依存するため、証拠の解釈を考慮すると、観察されたデータの証拠強度は、発生しなかったものと主観的な意図に依存することを意味します。 残念ながら、ヨハンソンの記事から直感的な理解を得ることができません。私にとっての-値 nullがより、真である少ないチャンスがあることを示しの-値。なぜ低いppp0.010.010.01ppp0.450.450.45ppp値はnullに対する強力な証拠ではないのですか?

3
p値の確立されたビューに対応する
レポートには、p値や他の推論統計に関する免責事項を含めることがあります。サンプルはランダムではなかったため、そのような統計は厳密には適用されないでしょう。私の具体的な言葉遣いは、通常、脚注に記載されています。 「厳密に言えば、推論統計はランダムサンプリングのコンテキストでのみ適用されますが、非ランダムサンプルでも有意水準および/または信頼区間を便利な尺度として報告する慣習に従います。MichaelOakesの 統計的推論:行動科学 (NY:Wiley、1986)。 いくつかの場合(査読付き論文の場合、非学術的な環境で1回または2回)、編集者または校閲者はこの免責事項に異議を唱え、混乱を招き、推論の結果は単に書かれたままになるべきだと感じました(そして権限のマントを与えられる)。他の誰かがこの問題に遭遇し、良い解決策を見つけましたか?一方で、p値の人々の理解は、ランダムサンプリングのコンテキストであっても、一般に陰気です。したがって、おそらく、私たちが言うことはそれほど重要ではありません。一方、誤解にさらに貢献することは、問題の一部になっているようです。ランダムな割り当てが適用されず、モンテカルロシミュレーションが代表性の問題に対処できないことが多い調査研究に頻繁に対処することを付け加えます。

2
p値を最初に使用/発明したのは誰ですか?
私はp値に関する一連のブログ投稿を書きたいと思っており、それがすべて始まったところに戻るのは面白いと思いました-それはピアソンの1900年の論文のようです。その論文に精通しているなら、これは適合度テストをカバーしていることを覚えているでしょう。 ピアソンは、p値に関しては自分の言語について少し緩いです。彼は、p値の解釈方法を説明するときに、「オッズ」を繰り返し使用します。12個のサイコロの繰り返しロールの結果について話すときたとえば、p.168に、彼は「言うP = 0.0000016に私たちをリードしている...、またはオッズは 62499ランダム上の偏差のようなシステムに対して1にあります選択。そのようでオッズサイコロが高いポイントへの偏りを示すと結論するのが妥当だろう。」 この記事では、彼はメリマンによる最小二乗に関する1891年の本を含む、以前の研究に言及しています。 しかし、Pearsonはp値の計算を行っています(カイ二乗適合度検定は正しくありません)。 ピアソンはp値を考えた最初の人でしたか?p値を検索すると、Fisherが言及されます-彼の仕事は1920年代でした。 編集:そして、ラプラスについて言及してくれてありがとう-彼は帰無仮説に対処しなかったようです(ピアソンは暗黙のうちにそうしているように見えますが、彼は1900年の論文でその用語を使ったことはありません)。ピアソンは適合度テストを検討しました:カウントが不偏プロセスから派生したと仮定すると、観測されたカウント(およびより逸脱したカウント)が仮定された分布から生じる確率はどのくらいですか? 彼の確率/オッズの扱い(確率をオッズに変換する)は、彼が帰無仮説の暗黙の考えに取り組んでいることを示唆しています。重要なことに、彼はまた、x ^ 2値から生じる確率は、彼の計算されたp値に関して「これよりもありえない、またはよりありえない偏差のシステムに対して」オッズを示していると述べています。 Arbuthnotはそこまで行きましたか? コメントを回答としてお気軽にお寄せください。ディスカッションを見るといいでしょう。

5
個々の研究者は、誤発見率をどのように考えるべきですか?
私は、False Discovery Rate(FDR)が個々の研究者の結論をどのように知らせるべきかについて頭をかき回そうとしています。たとえば、研究の能力が不足している場合、有意であったとしても結果を割り引く必要がありますか?注:複数のテスト修正の方法としてではなく、複数の研究の結果を総合的に検討するという文脈でFDRについて話している。α = .05α=.05\alpha = .05 (多分寛大な)の仮定を作るテストの仮説が実際に真であるが、FDRは、タイプIの両方の関数であり、次のようにIIエラー率を入力します。〜0.5∼.5\sim.5 FDR = αα + 1 - β。FDR=αα+1−β.\text{FDR} = \frac{\alpha}{\alpha+1-\beta}. ある研究が十分な能力を持たない場合、十分な能力のある研究の結果と同様に、結果が有意であっても、結果を信頼すべきではないことは理にかなっています。したがって、一部の統計学者が言うように、「長期的に」、従来のガイドラインに従えば、誤った多くの重要な結果を公開する可能性がある状況があります。研究の一貫性が一貫して不十分な研究によって特徴づけられている場合(例えば、過去10年間の候補遺伝子環境相互作用の文献)、複製された重要な発見でさえ疑われる可能性があります。××\times Rパッケージを適用するとextrafont、ggplot2とxkcd、私はこれが有効として概念かもしれないと思うの視点の問題: この情報を与えられた場合、個々の研究者は次に何をすべきでしょうか?私が勉強している効果の大きさを推測している場合(したがって、サンプルサイズを考慮して推定値)、FDR = .05までαレベルを調整する必要がありますか?私の研究が十分ではなく、FDRの考慮を文献の消費者に委ねる場合でも、α = .05レベルで結果を公開する必要がありますか?1 - β1−β1 - \betaαα\alphaα = .05α=.05\alpha = .05 これは、このサイトと統計文献の両方で頻繁に議論されているトピックであることは知っていますが、この問題に関する意見の一致を見つけることができないようです。 編集: @amoebaのコメントに応じて、FDRは標準のタイプI /タイプIIエラー率分割表から導出できます(そのさをご容赦ください)。 | |Finding is significant |Finding is insignificant | |:---------------------------|:----------------------|:------------------------| |Finding is false in reality …


4
多くのp値の一様分布は、H0が真であるという統計的証拠を提供しますか?
単一の統計的検定により、帰無仮説(H0)が偽であり、したがって対立仮説(H1)が真であるという証拠が得られます。ただし、H0を拒否しなくてもH0が真であることを意味しないため、H0が真であることを示すために使用することはできません。 しかし、互いに独立した多数のデータセットがあるため、統計テストを何度も実行できる可能性があると仮定しましょう。すべてのデータセットは同じプロセスの結果であり、プロセス自体に対して何らかのステートメント(H0 / H1)を作成し、各単一テストの結果には関心がありません。次に、結果のp値をすべて収集し、ヒストグラムプロットを介して、p値が明らかに均一に分布していることを偶然確認します。 私の今の推論は、これはH0が真の場合にのみ起こり得るということです。それ以外の場合、p値は異なって分布します。したがって、これはH0が真であると結論付けるのに十分な証拠ですか?または、ここで不可欠なものが欠けています。「H0が正しいと結論する」と書くのに多くの意志が必要だったからです。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
Rでブートストラップを使用してp値を計算する
「ブート」パッケージを使用して、近似の両側ブートストラップp値を計算しますが、結果はt.testを使用したp値から遠すぎます。Rコードで何が間違っていたかわかりません。誰かが私にこのヒントを教えてください time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = 5000, strata=sleep$group) pvalue = mean(abs(b3$t) &gt; abs(b3$t0)) pvalue 両側のブートストラップp値(pvalue)= 0.4804ですが、t.testの両側p値は0.04342です。両方のp値は約11倍の差があります。これはどのように起こりますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.