エフェクトサイズとは何ですか?なぜそれがさらに便利なのですか?


18

私は、大学院レベルの入門的な統計の背景を持っています(学部レベルで数学的統計と確率を知っていると仮定し(例えば、Wackerly et al。、Ross 'Probability)、測定理論の知識があります)。

私は最近、教育統計で実験計画と統計報告を行う仕事を始めました。そして、基本的に学校の説明責任の指標を評価し、データを分析し、変更を提案するなどのプロジェクトに参加しました。数学統計のバックグラウンドを持つ私の部門の1つ。

私の立場では、人々はプログラムの効果を測定するために効果サイズを使用することを強く提案しています。エフェクトサイズについて聞いたことがあるのは、心理学を勉強していた友人からです。私の印象では、

効果の大きさ=手段の違い標準偏差

従来の仮説検定に比べて、このメトリックについて何がそんなに便利なのか、なぜ気にする必要があるのか​​?私にとっては、2サンプルのt検定の検定統計量に過ぎませんt。おそらくすべてを同じスケールにすること(これはだれかが実際に「正規化」する理由です)を除けば、これはまったく有用ではありませんが、テスト統計(これはエフェクトサイズのように思えます)は時代遅れであると思いました、およびp値が推奨されます。


「入門レベルの統計レベルの背景」に少し混乱しています。最初の2つの用語は互いに矛盾しているようです。それに含まれるものを明確にできますか?それは、大学院レベルの統計の開始のようなものですか?
グレン_b-モニカの復元

2
@Glen_bはい、大学院レベルの統計を開始しています。私は学部レベルで数学的統計と確率を知っていて(例えば、Wackerly et al。、Ross 'Probability)、測度理論の知識があると仮定します。
クラリネット奏者

3
同情できます、OP。数学/統計の背景から来ると、社会学または心理学の博士課程プログラムで訓練された人々と統計を議論することはしばしば戸惑いました。なぜなら、彼らはすべてに対して異なる用語を持っているためです:)構造方程式モデリングがすべての問題の解決策ではないこと、または線形性が常に良い仮定ではないことを頑固な校閲者/編集者に納得させようとする、最高の統計的実践。しかし、数年後、私はそのコミュニティと非常にうまく合体することを学びました!
CrockGill

回答:


20

これは効果の大きさの尺度の1つですが他にもたくさんあります。確かに検定統計量ではありませ。効果の大きさの尺度は、コーエンのと呼ばれることがあります(厳密には、SDがMLEを介して推定される場合のみ、つまりベッセルの補正なしで正しい)。より一般的には、「標準化された平均差」と呼ばれます。おそらく、これによりより明確になります: つまり、「tdtd

d=バツ¯2バツ¯1SDt=バツ¯2バツ¯1SEt=バツ¯2バツ¯1SDN
/N標準化された平均差の式に欠落しています。

より一般的には、サンプルサイズを値から除外すると、実際の情報が得られます。真の効果が正確に から小数点以下の無限の桁数ではないと仮定すると、十分な任意のレベルの有意性を達成できます。 -値は、私たちが帰無仮説を棄却にすることができますどのように自信を持っての情報を提供していますが、効果はあなたが持っているどのくらいのデータであるどのように大きなconflatingによってそう。帰無仮説を棄却すべきかどうかを知ることは確かに素晴らしいことですが、教育的介入の効果が学童に大きな利益をもたらすのか、ささいなものであり、が大きいために有意であるのかを知るのも良いでしょう。 0NpN


15

より関連性の高い分野(心理学や教育など)のバックグラウンドを持つ人がより良い答えを得ると期待していますが、試してみます。

効果サイズ」とは、複数の意味を持つ用語です。長年にわたって、混乱を招くような会話を導き、最終的にその実現に至りました。ここでは、標準偏差に合わせてスケーリングされたバージョンを明確に扱っています(「それによって標準偏差がいくつ変化したのですか?」)

よくあるサブジェクトエリアでそのような「エフェクトサイズ」を見る理由の一部は、特定の値が本質的に意味のない変数を頻繁に持っているが、取得するのが難しい根本的なものを測定しようとするために構築されていることですで。

たとえば、仕事の満足度を測定しようとしていることを想像してください(おそらく、たとえば関心のある処理を含む、独立変数のセットに関連するモデルの場合)。直接それを取得する方法はありませんが、たとえばリッカート尺度のようなものを使用して、アンケートの作成を試みて、さまざまな側面を取得することができます。

別の研究者は、仕事の満足度を測定するための異なるアプローチを持っている可能性があるため、2つの「満足度」の測定値は直接比較できませんが、それらがさまざまな形式の妥当性などを持っている場合は、これらのものがチェックされます彼らは合理的に満足度を測定している可能性があります)、彼らは非常に似た効果サイズを持つことが期待されるかもしれません。少なくともエフェクトサイズはほぼ同等になります。


3
専門性のない「構築物」のアイデアを紹介するという非常に素晴らしい仕事をしています。しかし、クラリネット奏者の仕事では、この考えをある程度深く理解する必要があります。「コンストラクトの有効性」に関する最初の情報源を強くお勧めします。心理学速報のCronbach
David C. Norris

7

上記の式は、関連するサンプルのCohenのdを計算する方法です(これはおそらくあなたが持っているものですか?)。それらが関連していない場合は、代わりにプールされた分散を使用できます。エフェクトサイズについて説明するさまざまな統計情報がありますが、Cohenのdは0〜3の間で変化する標準化された測定値です。多くの異なる変数がある場合は、それらをすべて一緒に。一方、多くの人々は、測定される単位の観点から効果の大きさを理解することを好みます。 すでにp値があるのに、なぜdを計算するのですか? これは、現在作業しているデータセットの例です。検証済みの心理学的アンケート(リッカートデータの生成)を使用して測定された、学校で行われる行動介入を検討しています。ほとんどすべての変数が統計的に有意な変化を示しており、おそらく大きなサンプル(n =〜250)があるので驚くことではありません。ただし、一部の変数では、コーエンのd確かに変化はありますが、臨床的に重要な変化ではない可能性があることを示す0.12など、非常に小さなものです。したがって、データで何が起こっているかを議論し、解釈することが重要です。この概念は、実践者(またはあなたの場合は学校)が実際の治療の臨床的有用性(または実験しているもの)を考慮する必要がある心理学および健康科学で広く使用されています。Cohenのdは、(p値に関係なく)実際に介入する価値があるかどうかに関する質問に答えるのに役立ちます。医学では、NNTを検討し、問題の状態の重症度に関してこれを評価することも好みます。@krstoffr http://rpsychologist.com/d3/cohend/からこの素晴らしいリソースをご覧ください


2

書いたものは検定統計量ではありません。これは、2つの手段の違いを定義するために使用される指標です。一般に、効果サイズは、帰無仮説から何かがどれだけ離れているかを定量化するために使用されます。たとえば、2つのサンプルパワー分析を行っている場合、パワーを、先ほど書いたエフェクトサイズ(固定)の関数として定量化することができます(これはCohenのDと呼ばれます)。他の状況では、エフェクトのサイズは他の場合があります。tn

サンプル量を使用して効果サイズを報告することも珍しくありません。これは、ピアソン相関などのよく知られた統計と一致する可能性があります。時々持っています。値を報告してそれを1日と呼ぶのではなく、観測データが何らかの方法で帰無仮説からどれだけ離れているかを定量化する目的。p


2

:実際には、p値はついにとしても「ファッションのうち」でありhttp://www.nature.com/news/psychology-journal-bans-p-values-1.17001。帰無仮説有意性検定(NHST)は、サンプルサイズの説明以上のものを生成します。(*)実験的介入には何らかの効果があります。 。したがって、「有意でない」テストとは、単にサンプルサイズが十分に大きくなかったことを意味します。「重要な」テストとは、何かを「見つける」ために十分なデータを収集したことを意味します。

「効果サイズ」は、問題の自然な尺度で尺度を導入することにより、これを改善する試みを表します。医学では、治療に常に何らかの効果がある場合(プラセボ効果であっても)、「臨床的に意味のある効果」の概念が導入され、「治療」に「a(統計的に)任意の大規模な研究における有意な肯定的効果」(ただし非常に小さい)。

私があなたの仕事の性質を理解している場合、クラリネティストは、結局のところ、その正当な目的はあなたの管理下にある学校の教育を改善する行動/介入を知らせることです。したがって、設定は決定論的な設定であり、ベイジアン法が最も適切な(そして一意に一貫性のある[1])アプローチです。

確かに、頻度論的手法を理解する最良の方法は、ベイジアン手法の近似としてです。推定された効果サイズは、ベイジアン事後分布の中心性の尺度を目指していると理解できますが、p値は、その事後の1つの尾部を測定することを目指していると理解できます。したがって、これら2つの量を合わせると、問題に関する意思決定理論の見通しへの自然な入力を構成するベイジアン事後の大まかな要点が含まれます。(あるいは、効果の大きさに関する頻繁な信頼区間は、同様に信頼できる区間として理解できます。)

心理学と教育の分野では、ベイジアン法は実際に非常に人気があります。この理由の1つは、潜在変数として「構築物」をベイジアンモデルに簡単にインストールできることです。心理学者のジョン・K・クルシュケによる「子犬の本」をご覧ください。教育(生徒が教室に入れ子になっている、学校に入れ子になっている、学区に入れ子になっているなど)では、階層的なモデリングは避けられません。また、ベイジアンモデルは階層モデリングにも最適です。このアカウントでは、Gelman&Hill [2]をご覧ください。

[1]:ロバート、クリスチャンP.ベイジアンの選択:決定論的基礎から計算の実装まで。第2版 統計のスプリンガーテキスト。ニューヨーク:スプリンガー、2007年。

[2]:ゲルマン、アンドリュー、ジェニファーヒル。回帰およびマルチレベル/階層モデルを使用したデータ分析。社会調査の分析方法。ケンブリッジ ニューヨーク:ケンブリッジ大学出版局、2007年。


必要以上に頭を打つ必要はありませんが、ベイジアンブロックの観点からの「一貫性」については、[3]を参照してください。

[3]:ロビンズ、ジェームズ、ラリーワッサーマン。「条件付け、可能性、一貫性:いくつかの基本概念のレビュー。」Journal of the American Statistics Association 95、no。452(2000年12月1日):1340–46。doi:10.1080 / 01621459.2000.10474344。

(*)[4]で、ミールは私よりもはるかにエレガントにNHSTを磨きますが、それほど研ぎ澄ましません。

帰無仮説はほぼ常に偽であるため、「有意差」のパターンの観点から研究を要約した表は、統計的検出力関数の複雑で因果関係のない結果に過ぎません。

[4]:ミール、ポールE.「理論的リスクと表形式のアスタリスク:カールir、ロナルドir、およびソフト心理学のゆっくりした進歩」。http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


そして、Tukeyからの関連する引用:https : //stats.stackexchange.com/a/728/41404


1
任意の実験的介入は、いくつかの効果があります」(私の強調)として、「常に」続く、かなり強い声明です。いくつかの研究分野では、おそらくそれは優れた経験則ですが、あまりにも大げさすぎることには危険があると思います。p値は、間の相互作用から出:私はまた、議論の余地がある「[NHST]はもう少しあなたのサンプルサイズの説明よりも生産する」ことをお勧めしたいの両方のサンプルの大きさ効果の大きさ。
シルバーフィッシュ

@Silverfish、お返事ありがとうございます。p値に関する私の見解が「危険」である場合の例を提供することを勧めます。(ところで、私はいくつかを斜体にし、あなたのような苦情を見越して「厳密な意味で」というフレーズを使用しました。私の主張はまだ有効です。)さらに、p値は実際に他の2つの要因のうち、そのうちの1つ(サンプルサイズ)は、主に自由に選択できる自由設計パラメータです。したがって、その任意の選択は、p値が反映するものです。明らかに2つの数字が必要です。なぜ信頼区間の終点ではないのですか?
デビッドC.ノリス

2
例として:帰無仮説が真であると合理的に予想される場合、または少なくとも実験を行ったりデータを調べたりすることさえせずに偽であると断言することができなかった場合。すべてのヌルが偽であるわけではありません。テレパシーや予知実験などの超心理学の研究を検討してください。しかし、多くのヌルは、ゲノミクスなどの「科学的に有効」とみなされる分野に当てはまります。
シルバーフィッシュ

5
-1、ここには多くの問題があります、IMO。あるマイナー心理学ジャーナルがp値を禁止したという事実は、「p値がついに「時代遅れ」になった」という意味ではありません。禁止は広く批判されています(ASAによる丁寧な発言を含む&それ以来、他のジャーナルによって取り上げられていません。ジャーナルはベイジアン手法への切り替えを必要としないことに注意します(私が収集するのはあなたの好みです) 、しかし、ケースバイケースでのみそれを考慮します
グング-モニカ

3
ただし、実際の実験では、ユニットをランダム化するプロセスによって内因性経路が破壊され、XからYへの直接的な因果経路のテストが可能になります。すべての変数が両方向に直接因果的に接続していると主張するのは奇妙な形而上学的な主張ですが、これを保持しないでください、「「効果なし」の帰無仮説は常に偽である」と主張することは一貫性がありません。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.