エフェクトサイズメトリックに関するCohenのdとHedgesのgの違い

19

エフェクトサイズ分析では、Cohenのd、Hedgesのg、Hedgesのg *に違いがあることに気付きました。

これらの3つのメトリックは通常非常に似ていますか？
それらが異なる結果を生成する場合はどうなりますか？
また、私が使用または報告するのは好みの問題ですか？

effect-size cohens-d

— エルペスムエルト
ソース

1

ケースでは、ここにリストされている可能性のある解答式のために便利です：en.wikipedia.org/wiki/Effect_size

— Jeromy Anglim

さまざまなn1、n2、s1、s2、および母集団の違いを使用したRでのシミュレーションは、良い練習になるでしょう。誰でも？

— ジェロミーアングリム

1

この資料についても、ヘッジスのgとコーエンのdの違いについて説明します。

— GUNG -復活モニカ

18

CohenのdおよびHedgesの両方のgプールの分散は、等しい母集団の分散を前提としていますが、gはnの代わりに各サンプルに対してn-1を使用してプールします。dとgはどちらもやや正のバイアスがかかっていますが、中程度以上のサンプルサイズでは無視できる程度です。バイアスはg *を使用して低減されます。Glassによるdは、等しい分散を想定していないため、2つの平均の差の標準化因子としてコントロールグループまたはベースライン比較グループのsdを使用します。

これらのエフェクトサイズ、クリフおよびその他のノンパラメトリックエフェクトサイズについては、私の本で詳しく説明しています。

グリソム、RJ、およびキム、J、J（2005）。研究用の効果サイズ：幅広い実用的アプローチ。ニュージャージー州マーワー：エルバウム。

— ロバート・J・グリソム
ソース

8

私の理解では、Hedgesのgは、Cohenのd（プールされたSD）の多少正確なバージョンであり、小さなサンプルの補正係数を追加しています。等分散性の仮定が破られていない場合、両方の対策が一般的に同意するが、我々はこれが当てはまらない場合、状況を見つけ例えばマクグラス＆マイヤー、見ることができる心理メソッド 2006、11（4）：386から401（PDFファイル）。他の論文は私の返信の最後にリストされています。

私は一般に、ほとんどすべての心理学または生物医学の研究で、これが報告されているコーエンのdであることを発見しました。これはおそらく、その大きさを解釈するためのよく知られた経験則に基づいている（Cohen、1988）。ヘッジスのg（またはノンパラメトリックの代替としてのクリフデルタ）を検討している最近の論文については知りません。Bruce Thompsonには、エフェクトサイズに関するAPAセクションの改訂版があります。

効果サイズ測定に関するモンテカルロ研究についてグーグルで検索すると、興味深い論文が見つかりました（要約とシミュレーションの設定のみを読みます）：効果サイズのロバストな信頼区間：非正規性の下でのコーエンのdとクリフのデルタの比較研究および異種分散（pdf）。

2番目のコメントについて、MBESSRパッケージにはES計算用のさまざまなユーティリティ（smdおよび関連機能など）が含まれています。

その他の参考文献

ザクザニス、KK（2001）。真実、真実全体、そして真実のみを伝える統計：神経心理学研究者向けの式、説明的な数値例、および効果サイズ分析の発見的解釈。臨床神経心理学のアーカイブ、16（7）、653-667。（pdf）
Durlak、JA（2009）。効果サイズを選択、計算、および解釈する方法。Journal of Pediatric Psychology（pdf）

— chl
ソース

2

匿名ユーザーは、「各変数が同じ有限分散を持つランダム変数のセットのプロパティ」という用語になじみのない人のために、次の同相性の定義を追加したいと考えました。

— GUNG -復活モニカ

5

人々がコーエンのdを言うとき、彼らはほとんど意味するようです：

d = \frac{{\bar{x}}_{1} - {\bar{バツ}}_{2}}{s}

$d = \frac{\bar{x}_1 - \bar{x}_2}{s}$

どこ $s$ プールされた標準偏差であり、

s = \sqrt{\frac{\sum （ {バツ}_{1} - {\bar{バツ}}_{1} ）^{2} + （ {バツ}_{2} - {\bar{バツ}}_{2} ）^{2}}{n_{1} + n_{2} - 2}}

$s = \sqrt{\frac{\sum(x_1 - \bar{x}_1)^2 + (x_2 - \bar{x}_2)^2}{n_1 + n_2 - 2}}$

プールされた標準偏差には他にも推定値があり、おそらく上記とは別に最も一般的です

s^{*} = \sqrt{\frac{\sum （ {バツ}_{1} - {\bar{バツ}}_{1} ）^{2} + （ {バツ}_{2} - {\bar{バツ}}_{2} ）^{2}}{n_{1} + n_{2}}}

$s^* = \sqrt{\frac{\sum(x_1 - \bar{x}_1)^2 + (x_2 - \bar{x}_2)^2}{n_1 + n_2}}$

$s^*$ $n_1 + n_2$ $d$ $g$ $s$ $s$

その他の場合、Hedge's gは、Hedgesが開発した標準化された平均差のバイアス補正バージョンのいずれかを指すために予約されています。Hedges（1981）は、特に小さなサンプルで、Cohenのdが上向きにバイアスされていること（つまり、その期待値が真の母集団パラメーター値よりも高い）を示し、Cohenのdのバイアスを補正する補正係数を提案しました：

ヘッジのg（不偏推定量）：

g = d * （ \frac{Γ （ d f / 2 ）}{\sqrt{d f / 2} Γ （ （ d f - 1 ） / 2 ）} ）

$g = d * (\frac{\Gamma(df/2)}{\sqrt{df/2 \,}\,\Gamma((df-1)/2)})$

d f = n_{1} + n_{2} - 2

$df = n_1 + n_2 -2$

Γ

$\Gamma$

ただし、この補正係数は計算上かなり複雑であるため、Hedgesは計算上自明な近似を提供しますが、これはわずかに偏っていますが、考えられるほとんどすべての目的に適しています。

$g^*$

g^{*} = d * （ 1 - \frac{3}{4 （ d f ） - 1} ）

$g^* = d*(1 - \frac{3}{4(df) - 1})$

d f = n_{1} + n_{2} - 2

$df = n_1 + n_2 -2$

（元々はHedges、1981年、このバージョンはBorenstein、Hedges、Higgins、およびRothstein、2011年、27ページから）

$g^*$ $g^*$

$n > 20$

参照：

Borenstein、M.、Hedges、LV、Higgins、JP、＆Rothstein、HR（2011）。メタ分析の紹介。ウエストサセックス、イギリス：ジョンワイリー＆サンズ。

コーエン、J。（1977）。行動科学の統計的検出力分析（第2版）。米国ニュージャージー州ヒルズデール：Lawrence Erlbaum Associates、Inc.

ヘッジ、LV（1981）。Glassの効果サイズの推定量と関連する推定量の分布理論。Journal of Educational Statistics、6（2）、107-128。doi：10.3102 / 10769986006002107

Hedges LV、Olkin I.（1985）。メタ分析の統計的手法。カリフォルニア州サンディエゴ：Academic Press

— FelixST
ソース

3

私と同じように、Hedges 'gの基本的な意味を理解しようとしているだけなら、これも役立つでしょう：

ヘッジのgの大きさは、Cohen（1988 [2]）の規則を使用して、小（0.2）、中（0.5）、大（0.8）として解釈できます。[1]

それらの定義は短く明確です。

Hedges 'gは、サンプルサイズが小さいことによるバイアスを補正するCohenのdのバリエーションです（Hedges＆Olkin、1985）。[1]脚注

統計の専門家がこれを編集して、社会科学と心理学の研究で使用されるヘッジのg数を誤解しないように、専門家以外の人が小（0.2）中（0.5）と大（0.8）の主張に重要な警告を追加することを歓迎します。

[1] http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2848393/不安とうつ病に対するマインドフルネスベースの治療の効果：メタ分析レビューStefan G. Hofmann、Alice T. Sawyer、アシュリー・A・ウィット、ダイアナ・オー。J Clin Psycholに相談してください。2010年4月。78（2）：169–183。土井：10.1037 / a0018555

[2] Cohen J.行動科学の統計的検出力分析。第2版エルバウム; ニュージャージー州ヒルズデール：1988（[1]で引用）

— ジョショフ
ソース

4

+1。再：小中大、最初のパスとして、関連する知識や文脈がまったくない場合、これらの「Tシャツのサイズ」は問題ありませんが、実際には、小または大の効果は分野やトピックによって異なります。さらに、効果が「大きい」からといって、必ずしもそれが実際に重要または理論的に意味があるというわけではありません。

— GUNG -復活モニカ

1

他のポスターは、gとdの類似点と相違点の問題を扱っています。これに加えて、一部の学者は、Cohenが提供する効果サイズの値があまりにも寛大すぎて、弱い効果の過剰な解釈につながると感じています。彼らはまた、学者がより好ましい解釈可能な効果サイズを得るために前後に変換する可能性につながるrに結びついていません。Ferguson（2009、Professional Psychology：Research and PRactice）は、gの解釈に次の値を使用することを提案しました。

.41、「実用的意義」の推奨最小値。1.15、中程度の効果2.70、強い効果

これらは達成するのが明らかにより厳密/困難であり、多くの社会科学実験が強力な効果をもたらすことはありません...おそらくそうあるべきです。

— タイムトラベル
ソース

0

ブルース・トンプソンは、コーエン（0.2）を中程度（0.5）、中程度（0.8）ほど大きく使用することについて警告しました。コーエンは、これらを厳格な解釈として使用することを決して意図していませんでした。すべての効果のサイズは、関連する文献の文脈に基づいて解釈する必要があります。トピックで報告された関連するエフェクトサイズを分析していて、それらが（0.1）（0.3）（0.24）であり、（0.4）のエフェクトを生成する場合、それは「大きい」可能性があります。逆に、すべての関連文献に（0.5）（0.6）（0.7）の効果があり、（0.4）の効果がある場合、それは小さいと見なされる可能性があります。これは取るに足らない例ですが、絶対に重要なことです。トンプソンはかつて論文で「効果尺度の解釈を社会科学者が当時のp値をどのように解釈していたかを比較するとき、単に異なる指標で愚かだろう」と述べたと思います。

— user136666
ソース