タグ付けされた質問 「p-value」

頻度主義仮説検定では、 p-valueは、帰無仮説が真であるという仮定の下で、観測された結果よりも極端な(またはそれ以上の)結果の確率です。

1
比較の数が増えるにつれて、ベンジャミニ-ホッホベルグの補正はより保守的になりますか?
Benjamini-Hochbergの多重テスト修正は、比較の総数に対してどれほど保守的ですか?たとえば、2つのグループの18,000個の機能のリストがあり、p値を取得するためにWilcoxonテストを実行した場合。Benjamini-Hochbergを使用してそのp値を調整しますが、ほとんど何も重要ではありません。 ボンフェローニ補正は、比較の回数が増えるにつれてかなり保守的になる可能性があることを知っています。Benjamini-Hochbergにも同じ特性がありますか?

2
非対称ヌル分布の両側検定のP値
私の状況は次のとおりです:モンテカルロ研究を通じて、推定パラメーターの統計的有意性について2つの異なる検定の値を比較したい(nullは「効果なし-パラメーターはゼロ」、暗黙の代替は「パラメータはゼロではありません」)。テストAは標準の「平均値の等価性に関する独立した2標本t検定」であり、nullの下で等しい分散を持ちます。 ppp テストB自分で構築しました。ここで、使用されるヌル分布は非対称の一般的な離散分布です。しかし、Rohatgi&Saleh(2001、2nd ed、p。462)で次のコメントを見つけました。 「分布が対称でない場合、多くの著者は片側の値を2倍にすることを推奨していますが、両側のケースでは値は明確に定義されていませんpppppp。」 著者は、これについてさらに議論することも、片側値を2倍にする「多くの著者の提案」についてコメントすることもしません。(これにより、「どちらの側の値を2倍にしますか?そして、なぜこの側であり、もう一方ではありませんか?」という質問が作成されます。)pppppp この問題全体について、他のコメント、意見、結果を見つけることができませんでした。非対称分布では、パラメーターの値に関して帰無仮説の周りに対称な区間を考えることができますが、確率質量配分の2番目の通常の対称性はないことを理解しています。しかし、これが値を「十分に定義されていない」ものにする理由がわかりません 。個人的には、推定量の値に対して帰無仮説の周りに対称な区間を使用することにより、定義がありませんppp「ヌル分布が、この区間の境界に等しい値またはこの区間の外側の値を生成する確率はXXです」という問題。一方の側の確率質量が他方の側の確率質量と異なるという事実は、少なくとも私の目的では、問題を引き起こすようには見えません。しかし、Rohatgi&Salehが私が知らないことを知っていることよりもむしろありそうです。 だからこれは私の質問です:ヌル分布が対称ではない両側検定の場合、値はどのような意味で「十分に定義されていない」(または定義される可能性があります)か?ppp おそらく重要な注意事項:私は漁師の精神でより多くの問題にアプローチします、私はネイマン・ピアソンの意味で厳格な決定ルールを取得しようとはしていません。推論を行うために他の情報と一緒に値の情報を使用するのは、テストのユーザーに任されています。ppp

3
結果を「非常に重要」と呼ぶのは間違っていますか?
値が従来のレベルのはるかに下回る場合、統計学者が結果を「非常に重要」と呼ぶことを思いとどまらせるのはなぜですか?α 0.05pppαα\alpha0.050.050.05 99%()の確率しか得られない結果よりも、タイプIエラー()ではない確率が99.9%の結果を信頼することは本当に間違っていますか?p = 0.01p = 0.001p=0.001p=0.001p = 0.01p=0.01p=0.01

5
ん持って-squared -値を?
乗値にも値があるかどうかを理解しようとして混乱しているようです。prrrppp 私が理解しているように、データポイントのセットとの線形相関では、はから範囲の値を持つことができ、この値は、それが何であれ、がと著しく異なるかどうかを示す値を持つことができます(つまり、 、2つの変数の間に線形相関がある場合)。− 1 1 p r 0rrr− 1−1-1111ppprrr000 線形回帰に移ると、関数をデータに適合させることができます。これは、方程式で記述されます。と (切片と勾配)にも値があり、それらが大きく異なるかどうかを示し。a b p 0Y= a + b XY=a+bXY = a + bXaaabbbppp000 私は今のところ正しいのすべてを理解していると仮定すると、あるための-値とための-値だけで同じこと?それは値を持つ乗ではなく、またはを持つと言うのは正しいですか?r p b r p r bppprrrpppbbbrrrppprrrbbb

1
帰無仮説の下で二項検定をシミュレートする場合のp値の不均一な分布
帰無仮説では、p値の分布は均一であるはずだと聞きました。ただし、MATLABの二項検定のシミュレーションでは、平均が0.5(この場合は0.518)を超える非常に異なる不均一分布が返されます。 coin = [0 1]; success_vec = nan(20000,1); for i = 1:20000 success = 0; for j = 1:200 success = success + coin(randperm(2,1)); end success_vec(i) = success; end p_vec = binocdf(success_vec,200,0.5); hist(p_vec); 乱数を生成する方法を変更しようとしても、助けにはなりませんでした。ここで説明をいただければ幸いです。

3
回帰におけるR二乗とp値の関係は何ですか?
tl; dr-OLS回帰の場合、Rの2乗が大きいほどP値も高いことを意味しますか?特に単一の説明変数(Y = a + bX + e)についてですが、n個の複数の説明変数(Y = a + b1X + ... bnX + e)についても知りたいと思います。 コンテキスト-変数の範囲でOLS回帰を実行し、線形、対数など、各説明(独立)変数の変換の間のR 2乗値を含むテーブルを作成することにより、最適な説明関数形式を開発しようとしています。および応答(従属)変数。これは少し似ています: 変数名--linear form-- --ln(variable)--exp(variable)-... etc 変数1 ------- R-squared ---- R-squared ---- R-squared-... など... Rの2乗が適切か、またはP値の方が良いかどうか疑問に思っています。より重要な関係はより高い説明力を意味するが、それが厳密な方法で真実であるかどうかはわからないため、おそらく何らかの関係があります。

2
統計テストはゼロのp値を返すことができますか?
ゼロに近い値(統計ソフトウェアによってゼロに丸められる)を意味するのではなく、文字通りゼロの値を意味します。もしそうなら、帰無仮説が真であると仮定して得られたデータを取得する確率もゼロであることを意味しますか?この種の結果を返すことができる統計テストの例(いくつかの例)は何ですか? 2番目の文を編集して、「帰無仮説の確率」というフレーズを削除しました。

2
p値の分布の大きな分散(Taleb 2016の議論)
Taleb、2016、The Meta-Distribution of Standard P-Valuesでなされた全体像の主張を理解しようとしています。 その中で、Talebは(私が理解しているように)p値の信頼性について以下の議論をしています: ある分布Xからのデータポイントを操作する推定手順は、p値を出力します。この分布からさらにn個のポイントを引き出して別のp値を出力する場合、これらのp値を平均して、いわゆる「真のp値」を限界値で取得できます。nnnXXX この「真のp値」は非常に高い分散を持っていることが示されているため、「真のp値」分布+プロシージャは、60%の時間で<.05のp値を報告します。.12.12.12 質問:値を支持して、これを従来の議論とどのように調和させることができますか。私が理解しているように、p値はあなたの手順があなたに正しい間隔(または何でも)を与える時間の割合を教えてくれるはずです。ただし、このペーパーでは、手順を再度実行するとp値が同じにならないため、この解釈は誤解を招くと主張しているようです。ppp ポイントが足りませんか?

4
P値を誤解していますか?
したがって、P値を正しく解釈する方法について多くのことを読んでおり、私が読んだことから、p値は帰無仮説が真または偽である確率について何も言っていません。ただし、次のステートメントを読む場合: p –値は、タイプIエラーを犯す確率、または真である場合に帰無仮説を拒否する確率を表します。p値が小さいほど、帰無仮説を誤って拒否する可能性が小さくなります。 編集:そして5分後に読んだ: P値の誤った解釈は非常に一般的です。最も一般的な間違いは、P値を、真の帰無仮説(タイプIエラー)を拒否することにより間違いを犯す確率として解釈することです。 これは私を混乱させました。どちらが正しいか?そして、誰もがp値を正しく解釈する方法と、それがタイプIエラーを起こす確率に適切にどのように関連するかを説明できますか?

2
両側検定の説明
私は、生徒に(初等統計学コースで)両側検定とは何か、またそのP値がどのように計算されるかを説明するさまざまな方法を探しています。 両側検定と片側検定を生徒にどのように説明しますか?

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
ベイジアンマルチレベルモデルでp値を要求するレビュー担当者に応答する方法
レビュアーから、ベイジアンマルチレベルモデルのモデル推定値をよりよく理解するためにp値を提供するように依頼されました。このモデルは、実験の参加者ごとに複数の観測を行う典型的なモデルです。Stanを使用してモデルを推定したため、追加の事後統計を簡単に計算できます。現在、平均推定値と0.025および0.975分位数を(視覚的におよび表で)報告しています。 これまでの私の回答は次のとおりです。 P値は、ベイジアンモデルと矛盾します。つまり、P(X| θ)≠P(θ | X)。P(バツ|θ)≠P(θ|バツ)。P(X|\theta) \neq P(\theta|X). 事後分析に基づいて、パラメーターが0よりも大きい(小さい)確率を計算できます。これは、従来のp値に少し似ています。 私の質問は、これがレビュアーを満足させることができる応答なのか、それとも混乱を引き起こすだけなのかということです。 10月10日更新:回答のアドバイスを念頭に置いて論文を書き直しました。論文は受け入れられているので、これは本当に有益なアドバイスであったという以前のコメントを繰り返します!

2
順列検定で0に等しいP値
2つのデータセットがあり、それらが大幅に異なるかどうかを知りたい(これは、「2つのグループは大幅に異なる?使用するテスト」から得られます)。 私は置換テストを使用して、Rで次のことを行うことにしました。 permutation.test <- function(coding, lncrna) { coding <- coding[,1] # dataset1 lncrna <- lncrna[,1] # dataset2 ### Under null hyphotesis, both datasets would be the same. So: d <- c(coding, lncrna) # Observed difference diff.observed = mean(coding) - mean(lncrna) number_of_permutations = 5000 diff.random = NULL for (i in 1:number_of_permutations) …

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

5
効果サイズは本当にp値より優れていますか?
応用研究におけるp値ではなく、効果の大きさに依存して報告することに多くの重点が置かれています(例えば、以下の引用)。 しかし、p値のような効果サイズがランダム変数であり、同じ実験を繰り返したときにサンプルごとに異なる可能性があるということはありませんか?言い換えれば、どの統計的特徴(たとえば、p値よりもサンプルごとの効果サイズの変動が少ないか)が、p値よりも効果サイズの証拠測定指標を良くするかどうかを尋ねています。 ただし、p値とエフェクトサイズを分離する重要な事実に言及する必要があります。つまり、母集団パラメーターがあるため効果の大きさは推定されますが、母集団パラメーターがないためp値は推定されません。 私にとって、効果の大きさは、特定の研究分野(人間の研究など)で、さまざまな研究者が開発した測定ツールから得られた経験的知見を共通のメトリックに変換するのに役立つ指標です定量研究クラブ)。 たぶん、効果の大きさとして単純な割合をとると、次の(Rの)がp値に対する効果の大きさの優位性を示すものでしょうか?(p値は変更されますが、効果サイズは変更されません) binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55% binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55% ほとんどの効果のサイズは、検定統計量と直線的に関連していることに注意してください。したがって、効果サイズを使用して帰無仮説のテストを行うのは簡単なステップです。 たとえば、プレポストデザインから得られたt統計は、対応するCohenのd効果サイズに簡単に変換できます。そのため、Cohenのdの分布は、at分布のスケール位置バージョンにすぎません。 引用符: p値は混同されたインデックスであるため、理論上、さまざまなサンプルサイズと100の異なる効果サイズを持つ100の研究はそれぞれ同じ単一のp値を持つことができ、同じ単一の効果サイズを持つ100の研究はそれぞれp値に対して100の異なる値を持つことができます。 または p値は、サンプルごとに異なるランダム変数です。。。。したがって、2つの異なる実験、または同じ実験で測定された2つの変数のテストからp値を比較し、一方が他方よりも重要であることを宣言することは適切ではありませんか? 引用: トンプソン、B。(2006)。行動統計の基礎:洞察に基づくアプローチ。ニューヨーク、ニューヨーク:ギルフォードプレス。 グッド、PI、ハーディン、JW(2003)。統計の一般的なエラー(およびそれらを回避する方法)。ニューヨーク:ワイリー。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.