タグ付けされた質問 「effect-size」

効果の大きさは、「現象の強さの尺度またはその量のサンプルベースの推定」[ウィキペディア]です。

4
心理学誌は、p値と信頼区間を禁止しました。それらの使用をやめるのは本当に賢明ですか?
2015年2月25日に、ジャーナルBasic and Applied Social Psychology は、将来のすべての論文から値と信頼区間を禁止する社説を発行しました。ppp 具体的には、彼らは言う(フォーマットと強調は私のものです): [...]出版前に、著者はNHSTPのすべての痕跡を削除する必要があります[null仮説の有意性検定手順](値、値、値、「有意な」差異またはその欠如に関する記述、 等々)。ppptttFFF NHSTPが棄却の強力なケースを提供するために必要な帰無仮説の確率の提供に失敗する方法と同様に、信頼区間は対象の母集団パラメーターが指定された範囲内にあると結論付けるための強力なケースを提供しません間隔。したがって、信頼区間もBASPから禁止されています。 [...]ベイジアンの手順に関して、私たちはケースバイケースの判断を行う権利を留保します。したがって、ベイジアンの手順はBASPに必要でも禁止でもありません。 [...]推論統計手順は必要ですか?- いいえ [...]ただし、BASPでは、効果の大きさなどの強力な記述統計が必要です。 ここで、値の問題と誤用については説明しません。p-valueタグを参照すると、CVに関する優れた議論がたくさんあります。値の批判は、多くの場合、関心のあるパラメーターの信頼区間を報告するためのアドバイスと一緒になります。たとえば、この非常によく議論された回答では、 @ gungは、効果のサイズとその周囲の信頼区間を報告することを提案しています。しかし、このジャーナルは信頼区間も禁止しています。pppppp 値、信頼区間、および重要/重要でない二分法による「従来の」アプローチとは対照的に、データと実験結果を提示するこのようなアプローチの利点と欠点は何ですか?この禁止に対する反応はほとんど否定的なようです。それでは、欠点は何ですか?アメリカ統計協会は、この禁止について、「この政策はそれ自体の否定的な結果をもたらすかもしれない」と言って、簡単な落胆的なコメントを投稿しました。これらの負の結果は何でしょうか?ppp または、@ whuberが提案したように、このアプローチは一般的に定量的研究のパラダイムとして提唱されるべきですか?もしそうでなければ、なぜですか? PS。私の質問は禁止自体に関するものではないことに注意してください。それは提案されたアプローチについてです。私は、頻度論者対ベイジアン推論についても尋ねていません。エディトリアルは、ベイジアン手法についてもかなり否定的です。したがって、基本的には統計を使用することと、統計をまったく使用しないことです。 その他の議論:reddit、Gelman。

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
統計的に有意な分析と有意でない分析でイータ平方/部分イータ平方の解釈と報告方法は?
グループ平均差の効果サイズの尺度として計算されたイータ2乗値と部分イータ2乗値を持つデータがあります。 イータ平方と部分イータ平方の違いは何ですか?同じCohenのガイドラインを使用して両方を解釈できますか(1988年:0.01 =小、0.06 =中、0.13 =大) また、比較テスト(すなわち、t検定または一元配置分散分析)が有意でない場合、効果のサイズを報告するのに使用はありますか?私の頭では、これは「平均差は統計的有意性に達しなかったが、イータの2乗から示される効果の大きさは中程度であるため、依然として注目に値する」と言っているようなものです。または、効果サイズは、補完的なものではなく、有意性テストの代替値ですか?

4
p値が小さいほど説得力がありますか?
値、タイプ1のエラー率、有意水準、検出力の計算、効果の大きさ、およびフィッシャーとネイマンピアソンの議論について読んでいます。これにより、私は少し圧倒されました。テキストの壁をおaびしますが、実際の質問に移る前に、これらの概念の現在の理解の概要を提供する必要があると感じました。ppp 私が収集したものから、値は単に驚きの尺度であり、帰無仮説が真であれば、少なくとも極端な結果が得られる確率です。フィッシャーはもともと、それが継続的な測定であることを意図していた。ppp Neyman-Pearsonフレームワークでは、事前に有意水準を選択し、これを(任意の)カットオフポイントとして使用します。有意水準はタイプ1のエラー率に等しくなります。これは、長時間の実行頻度によって定義されます。つまり、実験を1000回繰り返して帰無仮説が真である場合、それらの実験のうち約50がサンプリングのばらつきのために大きな効果をもたらします。有意水準を選択することにより、一定の確率でこれらの誤検知から身を守ります。値は伝統的にこのフレームワークには現れません。PPP 0.01の値が見つかった場合、これはタイプ1のエラー率が0.01であることを意味するものではなく、タイプ1のエラーは事前に示されます。p値は0.05 *、0.01 **、0.001 ***として報告されることが多いため、これはフィッシャー対NPの議論における主要な議論の1つであると思います。これは、特定の有意値ではなく、特定のp値で効果が有意であると人々を誤解させる可能性があります。ppppppppp また、値がサンプルサイズの関数であることも認識しています。したがって、絶対測定として使用することはできません。小さなp値は、大規模なサンプル実験での小さな、無関係な効果を示している可能性があります。これに対抗するには、実験のサンプルサイズを決定するときに、出力/効果サイズの計算を実行することが重要です。P値は、効果の大きさではなく、効果があるかどうかを示します。Sullivan 2012を参照してください。ppppppPPP 私の質問: p値が驚きの尺度(より小さい=より説得力がある)であると同時に、絶対的な測定値と見なすことができないという事実をどのように調整できますか?ppp 私が混乱しているのは、次のとおりです。小さな値の方が大きな値よりも自信がありますか?漁師の意味では、そうです、私たちはもっと驚いています。NPフレームワークでは、より低い有意水準を選択することは、偽陽性に対してより強力に保護していることを意味します。ppp しかし、一方で、値はサンプルサイズに依存します。それらは絶対的な尺度ではありません。したがって、0.001593が0.0439 より重要であると単純に言うことはできません。しかし、これはフィッシャーのフレームワークで暗示されていることです。このような極端な価値にもっと驚かれることでしょう。用語についても、議論があります非常に重要な誤った名称であること:それは「非常に重要」であるとの結果を参照するために間違ってますか?ppp 一部の科学分野の値は0.0001より小さい場合にのみ重要と見なされるのに対し、他の分野では0.01前後の値はすでに非常に重要であると見なされていると聞きました。ppp 関連する質問: 統計的検定に対するフィッシャーとネイマン・ピアソンのアプローチ間の「ハイブリッド」は、実際には「インコヒーレントなミッシュマッシュ」ですか? FisherとNeyman-Pearsonフレームワークを使用する場合 「p値」の正確な値は無意味ですか? タイプIエラーに関連したp値の頻度特性 2つの平均の信頼区間とP値 なぜp値が低いほどnullに対する証拠ではないのですか?Johansson 2011の引数(@amoeba提供)

1
先験的な消費電力解析は本質的に役に立たないのですか?
先週パーソナリティと社会心理学会の会議に出席しました。そこでは、先験的な検出力分析を使用してサンプルサイズを決定することは、結果が仮定に非常に敏感であるため本質的に役に立たないという前提でUri Simonsohnの講演を見ました。 もちろん、この主張は、私のメソッドクラスで教えられたものと、多くの著名な方法論者の推薦(特にCohen、1992)に反するため、ウリは彼の主張に関連するいくつかの証拠を提示しました。この証拠のいくつかを以下で再現しようとしました。 簡単にするために、2つのグループの観測値がある状況を想像して、(標準化された平均差で測定される)効果サイズがと推測します。標準的な電力計算(以下のパッケージを使用して行われます)では、この設計で80%の電力を得るには観測値が必要であることがわかります。.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") ただし、通常、予想される効果の大きさについての推測は(少なくとも私の研究分野である社会科学では)まさにそれです-非常に大まかな推測です。エフェクトのサイズについての推測が少しずれている場合はどうなりますか?迅速な電力計算は、効果の大きさがある場合ことを示していますの代わりに、あなたが必要とする -観測あなたはの効果の大きさのために十分な力を持っている必要があると倍の数。同様に、エフェクトのサイズが場合、必要な観測値はだけです。これはエフェクトサイズを検出するのに十分なパワーが必要なものの70%です。.4.4.4.5.5.52002002001.561.561.56.5.5.5.6.6.6909090.50.50.50。事実上、推定観測の範囲が非常に大きいです-に。909090200200200 この問題に対する応答の1つは、効果のサイズを純粋に推測する代わりに、過去の文献またはパイロットテストを通じて、効果のサイズに関する証拠を収集することです。もちろん、パイロットテストを実行している場合は、パイロットテストを十分に小さくして、スタディの実行に必要なサンプルサイズを決定するためだけにスタディのバージョンを実行するのではなく(たとえば、パイロットテストで使用するサンプルサイズを調査のサンプルサイズよりも小さくする必要があります)。 Uri Simonsohnは、電力分析で使用される効果の大きさを決定するためのパイロットテストは役に立たないと主張しました。私が実行した次のシミュレーションを検討してくださいR。このシミュレーションでは、母集団効果のサイズがと想定しています。次に、サイズ40の1000回の「パイロットテスト」を実行し、10000個のパイロットテストのそれぞれから推奨されるNを集計します。.5.5.5100010001000NNN …

1
限界効果の標準誤差にデルタ法を使用する方法は?
相互作用項を含む回帰モデルの平均限界効果の標準誤差を近似するためのデルタ法をよりよく理解することに興味があります。デルタ方式で関連する質問を見ましたが、探しているものをまったく提供していません。 動機付けの例として、次のサンプルデータを検討してください。 set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) との平均限界効果(AME)に興味がx1ありx2ます。これらを計算するには、単に次のことを行います。 cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of x2 given x1 mean(me_x1) …

4
p値を互いに比較することはどのような意味がありますか?
私には2つの集団(男性と女性)があり、それぞれにサンプルが含まれています。サンプルごとに、AとBの2つのプロパティがあります(1年生の成績平均とSATスコア)。私はAとBに別々にt検定を使用しました:両方とも2つのグループの間に大きな違いがありました。P = 0.008とし、B 、P = 0.002。100010001000p = 0.008p=0.008p=0.008p = 0.002p=0.002p=0.002 プロパティBはプロパティAよりも差別的(より重要)であると主張しても大丈夫ですか?それとも、t検定は、はいまたはいいえ(有意または有意でない)尺度であるだけですか? 更新:ここのコメントおよびウィキペディアで読んだことによると、答えは無意味なp値を下げて効果サイズを報告する必要があると思います。何かご意見は?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 


5
エフェクトサイズとは何ですか?なぜそれがさらに便利なのですか?
私は、大学院レベルの入門的な統計の背景を持っています(学部レベルで数学的統計と確率を知っていると仮定し(例えば、Wackerly et al。、Ross 'Probability)、測定理論の知識があります)。 私は最近、教育統計で実験計画と統計報告を行う仕事を始めました。そして、基本的に学校の説明責任の指標を評価し、データを分析し、変更を提案するなどのプロジェクトに参加しました。数学統計のバックグラウンドを持つ私の部門の1つ。 私の立場では、人々はプログラムの効果を測定するために効果サイズを使用することを強く提案しています。エフェクトサイズについて聞いたことがあるのは、心理学を勉強していた友人からです。私の印象では、効果サイズ= 平均の差標準偏差。効果の大きさ=手段の違い標準偏差。\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.} 従来の仮説検定に比べて、このメトリックについて何がそんなに便利なのか、なぜ気にする必要があるのか​​?私にとっては、2サンプルのt検定の検定統計量に過ぎませんttt。おそらくすべてを同じスケールにすること(これはだれかが実際に「正規化」する理由です)を除けば、これはまったく有用ではありませんが、テスト統計(これはエフェクトサイズのように思えます)は時代遅れであると思いました、およびppp値が推奨されます。

2
ウィルコクソンの符号付きランク検定の効果サイズ?
一部の著者(たとえば、Pallant、2007、p。225;以下の画像を参照)は、検定統計量を観測数の平方根で除算することにより、ウィルコクソンの符号付きランク検定の効果サイズを計算することを提案しています。 r=Znx+ny√r=Znx+nyr = \frac{Z}{\sqrt{n_x + n_y}} Zは、SPSS(以下の画像を参照)およびwilcoxsign_testR によるテスト統計出力です(関連する質問:wilcoxsign_testのteststatistic vs linearstatisticも参照)。 他には、ブラベ・ピアソン()またはスピアマン(rS)相関係数(データ型に依存)。r=cov(XY)sd(X)×sd(Y)r=cov(XY)sd(X)×sd(Y)r = \frac{cov(XY)}{sd(X) \times sd(Y)}rSrSr_S それらを計算すると、2つrのsは、リモートでも同じではありません。たとえば、現在のデータの場合: r = 0.23()r=Znx+ny√r=Znx+nyr = \frac{Z}{\sqrt{n_x + n_y}} r = 0.43(ピアソン) これらは、まったく異なるエフェクトサイズを意味します。 では、どちらを使用するのが正しいエフェクトサイズであり、2つrのs はどのように相互に関連していますか? Pallant、J.(2007)の224ページ(下部)および225ページ。SPSSサバイバルマニュアル:

5
効果サイズは本当にp値より優れていますか?
応用研究におけるp値ではなく、効果の大きさに依存して報告することに多くの重点が置かれています(例えば、以下の引用)。 しかし、p値のような効果サイズがランダム変数であり、同じ実験を繰り返したときにサンプルごとに異なる可能性があるということはありませんか?言い換えれば、どの統計的特徴(たとえば、p値よりもサンプルごとの効果サイズの変動が少ないか)が、p値よりも効果サイズの証拠測定指標を良くするかどうかを尋ねています。 ただし、p値とエフェクトサイズを分離する重要な事実に言及する必要があります。つまり、母集団パラメーターがあるため効果の大きさは推定されますが、母集団パラメーターがないためp値は推定されません。 私にとって、効果の大きさは、特定の研究分野(人間の研究など)で、さまざまな研究者が開発した測定ツールから得られた経験的知見を共通のメトリックに変換するのに役立つ指標です定量研究クラブ)。 たぶん、効果の大きさとして単純な割合をとると、次の(Rの)がp値に対する効果の大きさの優位性を示すものでしょうか?(p値は変更されますが、効果サイズは変更されません) binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55% binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55% ほとんどの効果のサイズは、検定統計量と直線的に関連していることに注意してください。したがって、効果サイズを使用して帰無仮説のテストを行うのは簡単なステップです。 たとえば、プレポストデザインから得られたt統計は、対応するCohenのd効果サイズに簡単に変換できます。そのため、Cohenのdの分布は、at分布のスケール位置バージョンにすぎません。 引用符: p値は混同されたインデックスであるため、理論上、さまざまなサンプルサイズと100の異なる効果サイズを持つ100の研究はそれぞれ同じ単一のp値を持つことができ、同じ単一の効果サイズを持つ100の研究はそれぞれp値に対して100の異なる値を持つことができます。 または p値は、サンプルごとに異なるランダム変数です。。。。したがって、2つの異なる実験、または同じ実験で測定された2つの変数のテストからp値を比較し、一方が他方よりも重要であることを宣言することは適切ではありませんか? 引用: トンプソン、B。(2006)。行動統計の基礎:洞察に基づくアプローチ。ニューヨーク、ニューヨーク:ギルフォードプレス。 グッド、PI、ハーディン、JW(2003)。統計の一般的なエラー(およびそれらを回避する方法)。ニューヨーク:ワイリー。

1
メタ分析での効果サイズの事前指定
私の質問は、エフェクトサイズの事前分布に関するものです。私のプロジェクトでは、尺度はCohenのです。文献を読むことで、よく知られている8つの学校の階層的なベイジアンメタ分析の例のように、あいまいな事前定義がよく使用されるようです。8校の例では、私のような、ムーの推定に使用漠然と前を見てきました μ θ〜ノーマル(0 、100 )。DDDμθ〜正常(0 、100 )μθ〜正常⁡(0、100)\mu_{\theta} \sim \operatorname{normal}(0, 100) 私の専門分野は心理学で、通常、効果のサイズは小さいです。そのため、私はこの前を使用して検討していた:。前、このような厳しいための私の根拠は、事前分布の私の理解から、私はことを95%の事前確率置いています、つまりμ θが間-1 1に、その-1または1大きい影響については5%事前確率を残しているし。μθ〜正常( 0 、.5 )μθ〜正常⁡(0、.5)\mu_{\theta} \sim \operatorname{normal}(0, .5)μθμθ\mu_{\theta} 効果がこれほど大きいことはめったにありませんが、これは正当なものですか?

2
Mann-Whitney U検定:効果サイズの信頼区間
フリッツ、モリス、及びRichler(2011;下記参照)によれば、式を使用してマン・ホイットニーU検定のための効果の大きさとして算出することができる これは便利であることを私、他の機会にもを報告します。効果の大きさの尺度に加えて、の信頼区間を報告したいと思います。rrrr=zN−−√r=zN r = \frac{z}{\sqrt N} rrrrrr 私の質問は次のとおりです。 ピアソンのrのようにrの信頼区間を計算できますが、ノンパラメトリック検定の効果サイズの尺度として使用されますか? 片側検定と両側検定の場合、どの信頼区間を報告する必要がありますか? 2番目の質問に関する編集:「片側検定と両側検定の場合、どの信頼区間を報告する必要がありますか?」 私は、私見がこの質問に答えるかもしれないいくつかの情報を見つけました。「両側の信頼限界は信頼区間を形成しますが、片側の信頼限界は信頼限界の下限または上限と呼ばれます。」(http://en.wikipedia.org/wiki/Confidence_interval)。この情報から、有意性検定(たとえば、)が片側か両側かは主な問題ではなく、影響の大きさのCIに関してどのような情報に関心があるかを結論付けます。私の結論(あなたが同意しない場合は私を修正してください):ttt 両側CI →→\rightarrow上限と下限に関心(結果として、両側CIが0を伴う可能性がありますが、有意性の片側検定はp <.05でしたが、特に値が。 05.) 片側の「CI」→→\rightarrow上限または下限にのみ関心がある(理論的推論による); ただし、これは必ずしも有向仮説をテストした後の主な関心事ではありません。エフェクトサイズの可能な範囲に焦点が当てられている場合、両面CIは完全に適切です。正しい? 上記の記事からのMann-Whitney検定の効果サイズの見積もりに関するFritz、Morris、&Richler(2011)の文章の一節については、以下を参照してください。 「ここで説明したエフェクトサイズの推定値のほとんどは、データが正規分布を持っていることを前提としています。ただし、一部のデータはパラメトリックテストの要件を満たしていません。通常は、Mann-WhitneyやWilcoxon検定などのノンパラメトリック統計検定を使用しますこれらの検定の有意性は、通常、標本サイズが小さすぎない場合の検定統計の分布を分布に近似することで評価されます。これらのテストを実行するSPSSなどのパッケージは、または値に加えて適切な値を報告します;zzzzzzうんうんUTTTzzz手動で計算することもできます(例:Siegel&Castellan、1988)。値は、次のような、効果の大きさを計算するために使用され得るコーエン(1988)によって提案されました。Cohenのrに関するガイドラインでは、大きな効果は0.5、中程度の効果は.3、小さな効果は.1です(Coolican、2009、p。395)。、を計算するのは簡単ですzzzrrrrrrr2r2r^2、又はこれらからZ値ので 、R = Zη2η2\eta^2zzz および r2r = zN−−√r=zN r = \frac{z}{\sqrt N} これらの効果サイズの推定値は、式にNが含まれているにもかかわらず、サンプルサイズに依存しません。これは、zがサンプルサイズに敏感だからです。Nの関数で除算すると、結果の効果サイズの推定値からサンプルサイズの効果が削除されます。 "(p。12)r2O Rη2= z2Nr2orη2=z2N r^2\quad{\rm or}\quad \eta^2 = \frac{z^2}{N}

1
尤度比とベイジアンモデル比較は、帰無仮説検定の優れた十分な代替手段を提供しますか?
科学のための帰無仮説検定(NHT)の累積的な試みとしての有用性を批判する統計学者や研究者の増加に対応して、統計的推論に関する米国心理学会タスクフォースはNHTの全面禁止を回避しましたが、代わりに研究者に提案しましたNHTから導出されたp値に加えて、効果サイズを報告します。 ただし、効果の大きさは研究間で簡単に蓄積されません。メタ分析アプローチは効果サイズの分布を蓄積できますが、通常、効果サイズは生の効果の大きさと特定の実験のデータにおける説明のつかない「ノイズ」の比として計算されます。つまり、効果サイズの分布は研究間での影響の生の大きさのばらつきだけでなく、研究間でのノイズの発現のばらつきもあります。 対照的に、効果の強さ、尤度比の代替尺度は、研究ごとの直感的な解釈の両方を可能にし、メタ分析のために研究全体で簡単に集約することができます。各研究内で、尤度は、効果を含まないモデルに対する特定の効果を含むモデルの証拠の重みを表し、たとえば、「Xの効果の尤度比の計算その効果については、それぞれのヌルよりも8倍以上の証拠を明らかにしました」。さらに、尤度比は、1未満の尤度比がヌルが優先されるシナリオを表し、この値の逆数を取ることが効果に対するヌルの証拠の重みを表す限り、ヌルの結果の強さの直感的な表現も可能にします。特に、尤度比は、2つのモデルの説明されていない分散の比として数学的に表されます。これは、効果によって説明される分散のみが異なり、したがって効果サイズからの概念的な大きな逸脱ではありません。一方、研究全体の効果の証拠の重みを表すメタ分析尤度比の計算は、単に研究全体の尤度比の積をとる問題です。 したがって、効果/モデルに有利な大まかな証拠の程度を確立しようとする科学にとって、尤度比が道であると主張します。 効果の特定のサイズでのみモデルを微分できる微妙なケースがあります。その場合、データが効果パラメーター値と一貫していると思われる区間のある種の表現が好ましい場合があります。実際、APAタスクフォースは、この目的に使用できる信頼区間を報告することも推奨していますが、これも不適切なアプローチだと思います。 信頼区間は嘆かわしいほど誤解されることがよくあります(学生や研究者も同様)。また、CIにゼロを含めることによるNHTでの使用能力が、推論的慣行としてのNHTの絶滅をさらに遅らせるのに役立つことも恐れています。 代わりに、理論が効果のサイズによってのみ微分可能である場合、各効果の事前分布が各モデルによって個別に定義され、結果の事後分布が比較されるベイズのアプローチがより適切であることをお勧めします。 このアプローチは、p値、効果サイズ、信頼区間を尤度比に置き換え、必要に応じてベイジアンモデル比較で十分と思われますか?ここで悪用された代替手段が提供するいくつかの必要な推論機能を逃しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.