どの記述統計が効果サイズではありませんか?


12

ウィキペディアによると

効果サイズは、現象の強さの尺度またはその量のサンプルベースの推定値です。データから計算された効果の大きさは、データの見かけの関係が母集団の真の関係を反映しているかどうかについての声明を出さずに、推定される関係の大きさを伝える記述統計です。

それをよりよく理解するために、グラフとプロットを除いて、どの記述統計が効果サイズではないのか疑問に思っていました。


実際に、グラフとプロットは、効果の大きさの測定よりも直感的な方法で効果の大きさを測定するのに最適です。いくつかのメジャーで2つのグループ間のオーバーラップを実際に見る場合(これはおおよそ小さなdに対応します)、あるグループのメンバーが他のグループのメンバーよりもスコアが低いという意味ではないことを理解するのはおそらく簡単ですなど
ガラ

回答:


18

エフェクトサイズ

  • 一般的な標準化された効果サイズは、通常、関係または効果の量または程度を定量化します。最も一般的な効果サイズの尺度は、おそらくコーエンのd、ピアソンのr、およびオッズ比(特にバイナリ予測子の場合)です。
  • あまり一般的ではない効果サイズの測定:そうは言っても、標準化されたエフェクトサイズと標準化されていないエフェクトサイズの尺度を使用できます。関係の程度を伝え、サンプルサイズによって特に汚染されていない統計は、おそらく効果サイズの尺度です。したがって、ベータ係数、R 2乗、共分散、グループ間の生の平均差などはすべて、効果の程度をキャプチャします。そうは言っても、一部の研究者は効果サイズの尺度をやみくもに適用しており、より広い目的は読者に効果の程度の感覚を与えることであることを忘れています。そのため、平均差や生の回帰係数などの尺度が何らかの意味で効果サイズの尺度であることに気付かないことがよくあります。効果サイズを盲目的に使用する別の例には、直感的な解釈はないが、一部の教科書で推奨されている効果サイズ測定の使用が含まれます。

影響のないサイズ:

  • ほとんどのテスト統計は効果サイズではありません。たとえば、カイ2乗検定、t検定、z検定、F検定。これらは、母集団効果のサイズが大きくなるにつれて、またサンプルサイズが大きくなるにつれて大きくなります。多くの点で、研究者は効果の大きさよりもテストの統計の大きさに集中しすぎているため、効果の大きさの言語全体が近年強調されています。これは、小さな効果でも統計的に有意である可能性がある大きなサンプルサイズがある場合に特に重要です。
  • ほとんどの単変量統計は効果サイズではありません。ほとんどの目的で、エフェクトサイズは少なくとも2つの変数間の関係を懸念します。したがって、サンプルの平均、標準偏差、スキュー、尖度、最小、最大などは、効果サイズの尺度ではありません。
  • 関係の程度に関係しない統計は、効果サイズの尺度ではありません。たとえば、一般に多変量正規性、行列の固有値などのテストは、単語の通常の意味での効果の定量化を直接目的とするものではありません。

幅広い検討事項

  • スケーリングに関する考慮事項:効果の大きさの尺度としての統計の有用性は、効果の大きさを伝える能力に大きく関係しています。時々、これはおなじみの標準化された効果の尺度(例、コーエンのd)を使用することで達成されます。また、変数のスケーリングを慎重に検討すると、効果のサイズをより明確に解釈できる場合があります。たとえば、収入レベルに関するトレーニングプログラムを調査したとします。トレーニングプログラムで収入が0.2標準偏差増加したことを報告できます。または、プログラムで収入が3,500米ドル増加したと言えます。両方とも便利です。どちらも効果サイズの尺度です。1つ目は標準化されており(コーエンのd)、2つ目は標準化されていません(生のグループの平均差)。
  • 効果サイズの推定の精度:効果サイズの測定値のサンプル推定値を抽出することがよくあります(コーエンのd、ピアソンのrなど)。このコンテキストは、有意性テストと効果サイズ測定の対照につながる可能性があります。それでもなお、目的は、正確かつ偏りのない方法で、人口効果の大きさを推定することです。頻度主義の観点から、効果サイズの信頼区間は精度の推定値を提供します。ベイジアンの観点から見ると、効果サイズには事後密度があります。多くの場合、偏りのない効果サイズの尺度を使用するように注意する必要があります。

1
(+1)いい答えです。
chl

3番目と最後のポイントは、おそらくWikipediaの記事の著者がどこから来たのかを説明しています。心理学に重点が置かれていることを考えると、効果の大きさを他の記述統計と比較するのではなく、むしろ検定統計量とp値(すなわち推測統計量)と比較し、効果の大きさの尺度はサンプリングの変動性について何も言わないことを強調するのがポイントだと思います。
ガラ

素敵な答えをありがとう。質問があります:信頼区間はサンプルサイズに直接関連しているため、効果サイズの尺度として使用できませんか?(信頼区間とは、有病率、平均などに加算または減算される値を意味します。CIの上限と下限ではありません)。
ヴィック

2
@Vicでは、効果の大きさの尺度に信頼区間を設定できますが、信頼区間自体は効果の大きさではありません。
ジェロミーアングリム

親愛なるジェロミーに感謝します。これらすべての年の間、私は間違っていました。:)
ヴィック

6

第一に、効果サイズは推測的にも記述的にも使用できます。rとORはすべてエフェクトサイズであり、推論統計で使用されます。

単変量統計は通常、効果のサイズではありませんが、可能です。たとえば、結婚している男女の年齢を比較する場合、男性の平均年齢は効果サイズではありません(平均の差は1つの効果サイズになります)。しかし、何かの平均が0であるかどうかを確認したい場合、平均はエフェクトサイズになります。

効果を測定する場合、それは効果サイズです!


これは@Peterに当てはまると思いますが、エフェクトサイズはCohenによってより厳密に定義された用語です:(Mean1-Mean2)/ PooledSD。これは、重要な違い、または統計的にのみ重要な違い-統計用語を定義するための一般的な単語の使用に似ています。
-doug.numbers

2
コーエンはどこでそのように定義していますか?電力分析に関する彼の本を意味するなら、彼はそれを他の効果サイズに変換するための一種の標準として使用していると思います。しかし、その本の中ですべての電力解析テーブル(とが多い)、いくつかの効果の大きさ使用しています(とないすべての使用をその1)
ピーターFlom -復活モニカ

1
Cohenのdは常に私が理解した方法です。説明されているen.wikipedia.org/wiki/Effect_sizeと同様です。しかし、あなたは絶対に正しいです、エフェクトサイズとして説明されている多くの方法があります。
-doug.numbers

4
t検定とz検定は効果サイズではありません。同じ効果サイズは、異なるサンプルサイズに対して大幅に異なるtおよびz値を生成します。
ジェロミーアングリム

1
@JeromyAnglimは正しい。+1。回答を編集しました
ピーター・フロム-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.