タグ付けされた質問 「p-value」

頻度主義仮説検定では、 p-valueは、帰無仮説が真であるという仮定の下で、観測された結果よりも極端な(またはそれ以上の)結果の確率です。

16
統計的検定におけるp値とt値の意味は何ですか?
統計コースを受講してから仲間の学生を助けようとした後、頭を大きく叩くような刺激を与える1つの主題が統計仮説テストの結果を解釈していることに気付きました。学生は、与えられたテストに必要な計算を実行する方法を簡単に学びますが、結果を解釈することに夢中になっているようです。多くのコンピューター化されたツールは、「p値」または「t値」の観点からテスト結果を報告します。 統計の最初のコースを受講する大学生に次の点をどのように説明しますか: テスト対象の仮説に関して、「p値」とはどういう意味ですか?高いp値または低いp値を探す必要がある場合はありますか? p値とt値の関係は何ですか?

6
帰無仮説の下でp値が均一に分布するのはなぜですか?
最近、私はKlammerらによる論文で発見しました。p値を均一に分布させる必要があるというステートメント。著者を信じていますが、なぜそうなのか理解できません。 Klammer、AA、Park、CY、およびStafford Noble、W。(2009)SEQUEST XCorr関数の統計的キャリブレーション。プロテオームリサーチジャーナル。8(4):2106–2113。
115 p-value  uniform 

8
ASAは
すでにp値としてタグ付けされた複数のスレッドがあり、それらについての多くの誤解が明らかになっています。10か月前、p値を「禁止」した心理学雑誌pppについてのスレッドがありましたが、現在は米国統計協会(2016)の分析では「値の計算で終わるべきではない」と言われています。ppp 米国統計協会(ASA)は、値の適切な使用と解釈の根底にあるいくつかの広く合意された原則を明確にする正式な声明から科学界が利益を得ることができると考えています。ppp 委員会は、値の可能な代替手段または補足として他のアプローチをリストします。ppp 値の一般的な誤用および誤解を考慮して 、一部の統計学者はp値を他のアプローチで補完するか、さらには置き換えることを好み ます。これらには、信頼性、信頼性、予測間隔など、テストよりも推定を重視する方法が含まれます。ベイジアン法; 尤度比やベイズ因子などの証拠の代替手段。意思決定理論モデリングや誤発見率などの他のアプローチ。これらの測定とアプローチはすべて、さらなる仮定に依存していますが、効果のサイズ(および関連する不確実性)または仮説が正しいかどうかにより直接対処する場合があります。pppppp それでは、値後の現実を想像してみましょう。ASAは、p値の代わりに使用できるいくつかのメソッドをリストしていますが、なぜより良いのですか?すべての人生でp値を使用した研究者にとって、実際の代替物となるのはどれですか?私が質問のこの種のことを想像するだろう後に表示されたpので、多分のは、一歩先にそれらのことを試してみましょう、-values現実。すぐに適用できる合理的な代替手段は何ですか?このアプローチが主任研究者、編集者、または読者を説得するのはなぜですか?pppppppppppp このフォローアップブログエントリが示唆しているように、値はそのシンプルさにおいて無敵です。ppp p値には、保持する帰無仮説の下での統計の振る舞いの統計モデルのみが必要です。「良い」統計(p値の構築に使用される)を選択するために対立仮説のモデルが使用される場合でも、この代替モデルは、p値が有効であり、有用です(つまり、実際の効果を検出するためのパワーを提供しながら、希望するレベルでタイプIエラーを制御します)。対照的に、尤度比、効果サイズ推定、信頼区間、ベイジアン法などの他の(驚くほど有用な)統計的手法はすべて、テストされたヌルの下だけでなく、より広い範囲の状況を保持するための仮定モデルを必要とします。 それとも、それとも真実ではないのでしょうか? 私は知っていますが、これは広範ですが、主な質問は簡単です:代替として使用できる値に代わる最良の(そしてなぜ)実際の代替物は何ですか?ppp ASA(2016)。統計的有意性と値に関するASAステートメント。PPP アメリカの統計学者。(印刷中)

9
これは本当にp値がどのように機能するのですか?年間100万件の研究論文を純粋なランダム性に基づいて作成できますか?
私は統計学は非常に新しく、値を含む基本を理解することを学んでいます。しかし、今私の頭の中には大きな疑問符があり、私の理解が間違っていることを願っています。これが私の思考プロセスです。ppp 世界中のすべての研究は、「無限の猿の定理」の猿にやや似ていませんか?世界には23887の大学があると考えてください。各大学に1000人の学生がいる場合、それは毎年2300万人の学生です。 毎年、各生徒が仮説検定を使用して少なくとも1つの調査を行うとしましょう。α = 0.05α=0.05\alpha=0.05 それは、すべての研究サンプルがランダムな母集団から引き出されたとしても、それらの約5%が「帰無仮説を無効として拒否する」ことを意味しません。ワオ。それについて考えてください。これは、「重要な」結果のために年間約100万件の研究論文が発行されていることです。 これが機能する場合、これは怖いです。それは、私たちが当たり前と考える「科学的真実」の多くは、純粋なランダム性に基づいていることを意味します。 Rコードの単純なチャンクが私の理解をサポートしているようです: library(data.table) dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value)) dt[p<0.05,] だから、成功する上でこの記事し -fishingは:私は減量を支援チョコレートを考えることに何百万人をだまさ。方法は次のとおりです。ppp これで本当にすべてですか?これは「科学」がどのように機能するはずなのか

2
「インザワイルド」なPハッキングについてどれだけ知っていますか?
フレーズp -hacking(「データ dr 」、「スヌーピング」、「フィッシング」)は、結果が人為的に統計的に有意になるさまざまな種類の統計的不正行為を指します。「より重要な」結果を取得する方法は多数ありますが、決してこれらに限定されません: パターンが見つかったデータの「興味深い」サブセットのみを分析します。 複数のテスト、特に事後テスト、および重要ではない実行されたテストの報告に失敗した場合の適切な調整の失敗。 同じ仮説の異なるテスト、たとえば、パラメトリックテストとノンパラメトリックテストの両方を試します(このスレッドでは、いくつかの議論があります)が、最も重要なもののみを報告します。 望ましい結果が得られるまで、データポイントの包含/除外を試行します。「データクリーニングの外れ値」だけでなく、曖昧な定義(「先進国」の計量経済学の研究、異なる定義が異なる国のセットをもたらす)、または定性的包含基準(例えば、メタ分析) 、特定の研究の方法論が十分に堅牢であるかどうかは、バランスのとれた議論かもしれません) 前の例は、オプションの停止に関連しています。つまり、データセットを分析し、これまでに収集したデータに応じてデータを収集するかどうかを決定します(「これはほとんど重要です。さらに3人の学生を測定しましょう!」)分析で; モデルフィッティング中の実験、特に含める共変量だけでなく、データ変換/関数形式に関する実験。 したがって、p-ハッキングが実行できることを知っています。多くの場合、「p値の危険性」の 1つとしてリストされており、統計的有意性に関するASAレポートで言及されており、ここでCross Validatedで説明されているため、悪いことでもあります。いくつかの疑わしい動機と(特に学術出版の競争において)逆効果的なインセンティブは明らかですが、意図的な不正行為であろうと単純な無知であろうと、それがなぜなのかを理解するのは難しいと思います。ステップワイズ回帰からp値を報告する人(ステップワイズ手順は「良いモデルを生成する」が、意図されたpを認識していないため)-値が無効化される)、後者のキャンプではあるが、その効果はまだありP上記の私の箇条書きの最後の下-hacking。 確かにpハッキングが「外にある」という証拠があります。例えば、Head et al(2015)は科学文献に感染している証拠的な兆候を探しますが、それに関する我々の証拠の現状は何ですか?Headらがとったアプローチには論争がなかったわけではないことを知っているので、文学の現状、または学術界の一般的な考え方は興味深いでしょう。たとえば、次のことについて考えていますか? それはどの程度一般的であり、その発生を出版バイアスとどの程度まで区別できますか?(この区別は意味がありますか?) 効果は境界で特に深刻ですか?たとえば、で同様の効果が見られますか、それともp値の範囲全体が影響を受けますか?P ≈ 0.05p≈0.05p \approx 0.05P ≈ 0.01p≈0.01p \approx 0.01 pハッキングのパターンは学問分野によって異なりますか? p-ハッキングのメカニズム(上記の箇条書きにリストされているもの)のどれが最も一般的であるか、私たちは考えていますか?一部のフォームは、「よりよく偽装されている」ため、他のフォームよりも検出が難しいことが証明されていますか? 参照資料 ヘッド、ML、ホルマン、L。、ランフィア、R。、カーン、AT、およびジェニオン、MD(2015)。科学におけるpハッキングの範囲と結果。PLoS Biol、13(3)、e1002106。

9
p値に関して、なぜ1%と5%ですか?なぜ6%または10%ではないのですか?
p値については、なぜ%と%がのゴールドスタンダードであると思われるのでしょうか。%や%のような他の値はなぜですか?111555"statistical significance"666101010 これには根本的な数学的理由がありますか、それとも単に広く行われている慣習ですか

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
心理学誌は、p値と信頼区間を禁止しました。それらの使用をやめるのは本当に賢明ですか?
2015年2月25日に、ジャーナルBasic and Applied Social Psychology は、将来のすべての論文から値と信頼区間を禁止する社説を発行しました。ppp 具体的には、彼らは言う(フォーマットと強調は私のものです): [...]出版前に、著者はNHSTPのすべての痕跡を削除する必要があります[null仮説の有意性検定手順](値、値、値、「有意な」差異またはその欠如に関する記述、 等々)。ppptttFFF NHSTPが棄却の強力なケースを提供するために必要な帰無仮説の確率の提供に失敗する方法と同様に、信頼区間は対象の母集団パラメーターが指定された範囲内にあると結論付けるための強力なケースを提供しません間隔。したがって、信頼区間もBASPから禁止されています。 [...]ベイジアンの手順に関して、私たちはケースバイケースの判断を行う権利を留保します。したがって、ベイジアンの手順はBASPに必要でも禁止でもありません。 [...]推論統計手順は必要ですか?- いいえ [...]ただし、BASPでは、効果の大きさなどの強力な記述統計が必要です。 ここで、値の問題と誤用については説明しません。p-valueタグを参照すると、CVに関する優れた議論がたくさんあります。値の批判は、多くの場合、関心のあるパラメーターの信頼区間を報告するためのアドバイスと一緒になります。たとえば、この非常によく議論された回答では、 @ gungは、効果のサイズとその周囲の信頼区間を報告することを提案しています。しかし、このジャーナルは信頼区間も禁止しています。pppppp 値、信頼区間、および重要/重要でない二分法による「従来の」アプローチとは対照的に、データと実験結果を提示するこのようなアプローチの利点と欠点は何ですか?この禁止に対する反応はほとんど否定的なようです。それでは、欠点は何ですか?アメリカ統計協会は、この禁止について、「この政策はそれ自体の否定的な結果をもたらすかもしれない」と言って、簡単な落胆的なコメントを投稿しました。これらの負の結果は何でしょうか?ppp または、@ whuberが提案したように、このアプローチは一般的に定量的研究のパラダイムとして提唱されるべきですか?もしそうでなければ、なぜですか? PS。私の質問は禁止自体に関するものではないことに注意してください。それは提案されたアプローチについてです。私は、頻度論者対ベイジアン推論についても尋ねていません。エディトリアルは、ベイジアン手法についてもかなり否定的です。したがって、基本的には統計を使用することと、統計をまったく使用しないことです。 その他の議論:reddit、Gelman。

4
FisherとNeyman-Pearsonフレームワークを使用する場合
最近、フィッシャーの仮説検定の方法とネイマン・ピアソンの考え方との違いについてたくさん読んでいます。 私の質問は、哲学的な異議をしばらく無視することです。統計モデリングのフィッシャーのアプローチをいつ使用する必要があり、有意水準などのネイマン・ピアソン法を使用する必要があるのか​​?特定の実用的な問題でどの視点を支持するかを決定する実用的な方法はありますか?

3
これはp値問題の解決策ですか?
2016年2月、米国統計協会は、統計的有意性とp値に関する公式声明を発表しました。それに関する私たちのスレッドは、これらの問題について広範囲に議論しています。しかし、今まで、広く認められた効果的な代替手段を提供する権限はありません。アメリカ統計学会(ASS)は、その応答、p値を発表しました:次は何ですか? 「p値はあまり良くありません。」 ASAは十分に機能しなかったと思います。p値の時代が終わったことを認める時です。統計学者はそれらを使用して大学生を困惑させ、科学者をだまし、編集者をだまして成功させましたが、世界はこの策略を見始めています。意思決定を制御するための統計学者によるこの20世紀初頭の試みを放棄する必要があります。実際に機能するものに戻る必要があります。 公式のASS提案は次のとおりです。 p値の代わりに、ASSはSTOP (SeaT-Of-Pantsプロシージャ)を提唱します。ロナルド・フィッシャーが来て物事を台無しにするまで、この昔からの方法とテストされた方法は、古代ギリシア人、ルネサンスの男性、およびすべての科学者によって使用されました。STOPは、シンプルで直接的な、データ駆動型で信頼できるものです。それを実行するために、権威のある人物(好みにより年上の男性)がデータをレビューし、彼らが彼の意見に同意するかどうかを決定します。彼が決定すると、結果は「重要」になります。それ以外の場合はそうではなく、すべてのことを忘れる必要があります。 原則 応答は、ASAの6つの原則のそれぞれに対応しています。 STOPは、データが指定された統計モデルとどれだけ互換性がないかを示すことができます。 このフレーズが気に入ったのは、STOPがyesまたはnoの質問に答えると言うのはとてもおしゃれな方法だからです。p値または他の統計的手順とは異なり、疑いの余地はありません。これは、「スティンキンの帰無仮説は必要ありません!」と言う人への完璧な反応です。とにかく*?!@とは何ですか?誰がそれがどうなっているかを理解することはできませんでした。」 STOPは、仮説が真である確率を測定しません。実際に、真かどうかを判断します。 誰もが確率に混乱しています。写真から確率をとることにより、STOPは長年の学部および大学院での研究の必要性を排除します。今では誰でも(十分に年をとっており、男性でも)統計分析を行うことができます。1回の統計講義を聴いたり、わかりにくい出力を吐き出す難解なソフトウェアを実行したりする苦痛や苦痛はありません。 科学的結論とビジネスまたは政策決定は、常識と実際の権威の数字に基づいて行うことができます。 とにかく、当局は常に重要な決定を下してきたので、それを認めて仲介人を排除しましょう。STOPを使用すると、統計学者は自分に最適なことを行うことができます。数値を使用して真実を難読化し、権力者の選好を聖別します。 適切な推論には、完全なレポートと透明性が必要です。 STOPは、これまでに発明された中で最も透過的で自明の統計手順です。データを見て決定します。データの意味がわからないという事実を隠すために人々が使用する、すべての混乱するz検定、t検定、カイ2乗検定、アルファベットスープ手順(ANOVA!GLM!MLE!)を排除します。 STOPは結果の重要性を測定します。 これは自明です。権限のある人がSTOPを使用する場合、結果は重要でなければなりません。 STOP自体は、モデルまたは仮説に関する証拠の適切な尺度を提供します。 私たちは権威に挑戦したくないでしょうか?研究者と意思決定者は、STOPが知る必要があるすべての情報を提供することを認識します。これらの理由により、データ分析はSTOPで終了する可能性があります。p値、機械学習、占星術などの代替アプローチの必要はありません。 その他のアプローチ 一部の統計学者は、いわゆる「ベイジアン」法を好みます。この方法では、18世紀の聖職者によって死後に公表された不明瞭な定理が、あらゆる問題を解決するために無意識に適用されます。最も有名な支持者は、これらの方法が「主観的」であることを自由に認めています。主観的方法を使用する場合、意思決定者の権威があり知識があるほど、結果は良くなります。これにより、STOPはすべてのBayesメソッドの論理的な制限として現れます。担当者にデータを見せて、彼の意見を尋ねるだけでいいのに、なぜこれらのひどい計算をし、コンピューターの時間を無駄にする努力をするのでしょうか?物語の終わり。 統計学者の神権に挑戦するために、最近別のコミュニティが生まれました。彼らは自分たちを「機械学習者」および「データ科学者」と呼んでいますが、彼らは本当に高い地位を探しているハッカーです。ASSの公式の立場は、人々が彼らを真剣に受けとめたいなら、これらの人たちが彼ら自身の専門組織を形成すべきだということです。 質問 これは、ASAがp値と帰無仮説検定で特定した問題に対する答えですか?(応答で暗黙的に主張されているように)ベイジアンとフリークエンティストのパラダイムを本当に結び付けることができますか?

8
p値が有用な良い説得力のある例は何ですか?
タイトルの私の質問は自明ですが、コンテキストを与えたいと思います。 ASAは今週、「p値に関するコンテキスト、プロセス、目的」に関する声明を発表し、p値に関するさまざまな一般的な誤解の概要を示し、コンテキストと思考なしに使用しないように注意を促しています統計的な方法、本当に)。 ASAに応えて、Matloff教授は150年後、ASAはp-valuesにノーと言うブログ投稿を書きました。その後、ベンジャミニ教授(および私)は、「p値の誤りではない -最近のASAステートメントに関する考察」というタイトルの応答投稿を書きました。それに応えて、マトロフ教授はフォローアップの投稿で尋ねました: 私が見たいのは[...は] -p値が有用である、説得力のある良い例です。それは本当に一番下の行でなければなりません。 値の有用性に対する彼の 2つの主要な議論を引用するには:ppp サンプル数が多い場合、有意性検定は、帰無仮説からの重要ではないわずかな逸脱に飛びつきます。 現実世界では帰無仮説がほとんどないので、それらに対して有意性検定を実行するのはばかげて奇妙です。 私は、他の相互検証されたコミュニティのメンバーがこの質問/議論についてどう考えているか、そしてそれに対する良い反応を構成するものに非常に興味があります。

3
帰無仮説の有意性検定に対する引数を含む参照?
ここ数年、私は科学における帰無仮説の有意性検定の使用に反対する多くの論文を読みましたが、永続的なリストを維持するとは考えていませんでした。最近、同僚がそのようなリストを求めてきたので、私はここにいるすべての人にリストの作成を手伝ってもらおうと思った。物事を始めるために、ここに私がこれまで持っているものがあります: ヨハンソン(2011)「不可能を呼び起こす:p値、証拠、可能性。」 Haller&Kraus(2002)「重要性の誤解:生徒が教師と共有する問題」 Wagenmakers(2007)「p値の一般的な問題に対する実用的な解決策。」 Rodgers(2010)「数学的および統計的モデリングの認識論:静かな方法論的革命。」 ディクソン(1998)「科学者がp値を重視する理由」 Glover&Dixon(2004)「尤度比:経験心理学者向けのシンプルで柔軟な統計。」

4
小さな
の一部のテストでRは、のp値の計算に下限があります。正当な理由がある場合、または単にarbitrary意的なものである場合、なぜこの数字なのかわかりません。他の多くの統計パッケージはに移動するだけなので、これははるかに高いレベルの精度です。しかし、または報告している論文はあまり見ていません。2.22⋅10−162.22⋅10−162.22 \cdot 10^{-16}0.0001p&lt;2.22⋅10−16p&lt;2.22⋅10−16p < 2.22\cdot 10^{-16}p=2.22⋅10−16p=2.22⋅10−16p = 2.22\cdot 10^{-16} この計算値を報告するのは一般的/ベストプラクティスp &lt; 0.000000000000001ですか、それとも他の何か(など)を報告するのがより一般的ですか?

10
「科学者は統計的有意性に反する」とはどういう意味ですか?(自然の中でのコメント)
Nature ScientistsのCommentのタイトルは、統計的有意性に反して始まります。 バレンティン・アムライン、サンダー・グリーンランド、ブレイク・マクシェーン、および800人以上の署名者は、誇大広告の主張の終了と、おそらく重大な影響の却下を求めています。 その後、次のようなステートメントが含まれます。 繰り返しますが、P値、信頼区間、またはその他の統計的手段の禁止を提唱するのではなく、それらをカテゴリ的に扱うべきではありません。これには、統計的に有意であるかどうかの二分法と、ベイズ因子などの他の統計的尺度に基づく分類が含まれます。 下の画像は、一方の効果が「除外」され、もう一方の研究がそうではないため、2つの研究が一致しないとは言っていないことを理解できると思います。しかし、この記事は私が理解できる以上に深く掘り下げているようです。 終わりに向かって、4つのポイントで要約があるようです。統計を書くのではなく読む人にとって、これらをさらに簡単な言葉で要約することは可能ですか? 互換性の間隔について話すときは、4つのことを念頭に置いてください。 最初に、間隔がデータと最も互換性のある値を与えるという仮定が与えられているからといって、それ以外の値が互換性がないということではありません。互換性が低いだけです... 第二に、仮定を考えると、内部のすべての値がデータと等しく互換性があるわけではありません 第三に、0.05のしきい値のように、間隔の計算に使用されるデフォルトの95%はそれ自体が任意の規則です... 最後に、そして最も重要なことは、謙虚であることです。互換性評価は、間隔の計算に使用される統計的仮定の正確さにかかっています...


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.