ゲルマンとカーリンを理解する「パワー計算を超えて:…」(2014)


11

GelmanとCarlinの「パワー計算を超えて:タイプS(符号)およびタイプM(マグニチュード)エラーの評価」(2014)を読んでいます。私は主なアイデア、主な理解を理解しようとしていますが、混乱しています。誰かが私に本質を蒸留するのを手伝ってくれる?

紙はこのようなものになります(私が正しく理解した場合)。

  • 心理学の統計的研究は、しばしば小さなサンプルに悩まされます。
  • 特定の研究における統計的に有意な結果を条件として、
    (1)真の効果サイズは大幅に過大評価される可能性が高く、
    (2)効果の符号は高い確率で反対になる可能性があります(サンプルサイズが十分に大きい場合を除く)。
  • 上記は、母集団における効果サイズの以前の推測を使用して示され、その効果は通常小さいと見なされます。

私の最初の問題は、なぜ統計的に有意な結果の条件なのか、です。それは出版バイアスを反映することですか?しかし、そうではないようです。では、なぜでしょうか。

私の第二の問題は、私は自分自身を勉強をすれば、私は私がするために使用しています異なったよりも、私の結果を扱うべきである(I行うfrequentist統計、ベイズに精通していませんか)?たとえば、データのサンプルを取り、モデルを推定し、関心のある効果とその周りの信頼限界の点推定を記録します。私は今、自分の結果を不信にすべきですか?それとも統計的に有意である場合、それを誤解する必要がありますか?与えられた以前の変化はどうですか?

(1)統計調査の「プロ​​デューサー」にとって、および(2)応用統計論文の読者にとっての主な要点は何ですか?

参照:

PSここで私にとっての新しい要素は、以前の情報を含めることだと思います。これは、(頻繁なパラダイムから来た)処理方法がわかりません。


ご覧のように、私はかなり混乱しているので、私の質問はまとまりがなく、理にかなっていないようです。私が研究している論文からより理解を深めるためのヒントがあれば、感謝します。問題の理解が進むにつれ、より賢明な質問を提示できるようになりたいと思います。
Richard Hardy

7
「最初に実験の実行が終了しました。結果を分析すると 、大きな効果が見られます。成功です!でも、待ってください-研究から得られる情報の量?結果をどの程度信頼すべきですか? "---彼らは、あなたが有意義であるときに何が起こるか/何が暗示されるかを説明しています。彼らはそれらの結果を利用して、重要性以外のものに焦点を合わせる動機を与えます。
Glen_b-2016

複数の有意差検定を実行し、結果が取るに足らないことが判明した場合はすべて除外すると、結果を不信にする必要があります。これは「出版バイアス」のようなものですが、出版物がなくても、数か月または数年の実験を経て、1人の研究室で発生する可能性があります。誰もがある程度そのようなことをしているので、重要な結果に条件を付けることへの教育的関心があります。
アメーバは、モニカを

@ amoeba、OK、でも(仮説的に)モデルを1つだけ推定し、事前に指定された1つのパラメーターのみに焦点を当てる場合(絶対に複数のテストを行わない)、Gelman&Carlinの結果は何かを変えるでしょうか?事前情報を含めてみませんか?
Richard Hardy

2
誤った発見率を評価するには、事前の情報が必要です。有意性検定の通常のロジックは、タイプIのエラー率P(signif | null)のみを保証します。P(null | signif)を推定するには、事前に呼び出す必要があります。それがゲルマンとカーリンがここでやっていることです。1つのモデルのみを推定する場合、「誤検出率」は意味がありません(頻度主義アプローチでは)。しかし、通常、人々は多くのモデルを推定します:-)または少なくとも、多くのモデルを推定している他の人々で構成される文献を読みます。
アメーバはモニカを元に戻す

回答:


5

私はその論文をもう一度読みましたが、今回はそれがはるかに明確に思えます。@Glen_bと@amoebaによる有益なコメントも意味をなしています。

全体の議論は、統計的に有意な結果が得られたという出発点に基づいています。その上の条件は、我々はそれがコンディショニング不在になるとは異なる分散推定効果の大きさがあります: この論文は2つの問題を対象にしているようです:

Pβ^(|β^ is statistically significant)Pβ^().
  1. 出版バイアス(統計的に有意な結果のみが発表されます)および
  2. 新しい研究の設計計算のバイアス(予想される効果サイズがベンチマークとして大きすぎる)。

良いニュースは、両方の問題に満足のいく方法で対処できることです。

  1. もっともらしい予想される効果サイズ与えられた場合、推定される効果サイズ(それが統計的に有意であったために公開されたと仮定し、それ以外の場合は公開されなかったと仮定)、推定標準誤差と推定量の分布族(例:NormalまたはStudent's)を使用すると、効果サイズの無条件分布をバックトラックできます。βplausibleβ^s.e.(β^)tPβ^()
  2. 以前の調査結果を使用して、1の助けを借りて、もっともらしい効果サイズを決定し、研究デザインで使用できます。βplausible

私自身の2つの質問に簡単に回答するには:

  1. それは、データのしゅんせつという意味ではなく、力不足の研究との関連で、出版バイアスについてです。統計的に有意な結果は、たとえば、nullの下での5%の拒否に属している可能性があります(したがって、nullは実際にはtrueですが、偶然に、偶然にnullから遠く離れている)。 nullは真ではなく、結果は「本物」です。
  2. 統計的に有意な結果は「本当の」効果(低電力のため)ではなく偶然によるものである可能性が高いため(たとえば、確率が5%に制限されている場合でも)、nullを拒否することに注意する必要があります。 。

2
Glen_bによるこの回答も非常に役立ちます。
Richard Hardy

冗長性のないものが本当にあるかどうかはわかりませんが、役立つかもしれないその質問への回答も書きました。1つのポイント:彼らは必ずしも(論文ではと呼ばれます)を使用して効果サイズの「真の」分布を推定することを推奨するのではなく、タイプSを作成した確率を推定するためにそれを使用するか、または現在のテスト結果に基づくタイプMエラー。これはベイジアンですが、IMHOは "ベイジアンライト"のようなものです;)まだ頻度分析テストの結果を解釈するために使用しているためです。βplausibleD
Patrick B.

@PatrickB。、ありがとう。少し後で見ていきます。(私は以前にあなたの回答をすでに賛成していたと思います。つまり、私はすでにそれが役に立ったと思っていたことを意味します。)
Richard Hardy

1
リチャード、私は、効果のサイズのより一般的なケースでタイプ「S」とタイプ「M」のエラーを推定するR関数を開発しまし。正規分布の下でゲルマンが示すものではありません。この論文を読んでいると、以前の簡単な回復プロセスがあり、統計的に有意な発見があります。しかし、全体のプロセスは完全に電力分析に基づいています。本質的に、小さなノイズの多い研究の場合、SEは大きく、経験的に検証可能な妥当な効果サイズによっていくつかの妥当なものを想定することで、妥当な結果を得ることができます...
rnorouzian 2017

1
...タイプ "S"の高い率と誇張率(つまり、タイプ "M")の取得を回避するために必要なサンプルサイズの観点から、将来の調査に何を含める必要があるかに関する見積もり。レコードの場合、Gelmanのタイプ "S"は、根底にある効果の反対側にある、根本的な効果サイズ分布の下の単純な部分であり、パワーで除算されます。とにかく、それが役立つ場合に備えて関数を見てください。
rnorouzian 2017

2

この論文には、すでにベイジアン分析を適用していて、統計的有意性の部分を気にしない場合に役立つ別の角度があります。

仮定数量の後部CDFですあなたは推定に興味がある(効果の大きさ)。ベイズの状況では、表記法を自由に取り、確率密度関数について話すように切り替えれば、観測可能な量と純粋な事前分布に基づいた尤度関数が得られます。PβVβ

p(β|V)p(V|β)p(β)

ここで、はベクトル量である可能性が高く、最も単純なケースでは、通常の尤度項の積が生成され、対数項の合計に変わるなど、複数の独立した観測のベクトルです。そのベクトルの長さは、サンプルサイズのパラメーター化。他のモデルでは、がポアソンであるとすると、サンプルサイズのパラメーター化も表すポアソンパラメーターにまとめられる可能性があります。VVp(V|β)

次に、文献レビューまたはその他の手段に基づいて仮説を作成するとします。想定されるデータ生成プロセスをして、モデルが適切に指定され、場合にどのデータが表示されるかを表すシミュレーションを生成できます。は実際のエフェクトサイズです。βplausibleP(V|β)β=βplausibleVβplausible

次に、何か愚かなことを行うことができます。振り向いて、サンプルが観測データであるように振る舞い、全体の後方からのサンプルの束を描きます。これらのサンプルから、論文で述べたように統計を計算できます。Vβ

リンクされた論文からの量、タイプSエラー、誇張率は、すでにほとんど同じことを表しています。その効果サイズについて、モデルの選択を前提として、これらはに対して選択されたサンプルサイズの特定のパラメーター、間違った符号の事後確率、および予想される(事後の)比率が効果サイズの間になることを通知しますのどの側面もサンプルサイズに関連して変化するため、モデルと想定される妥当な効果サイズによって生成されます。VV

最もトリッキーな部分は、事後の "パワー"を推定値が少なくとも仮想値同じである事後確率として解釈することです。これは、帰無仮説を棄却する能力の尺度ではありません。なぜなら、この確率のサイズは、頻度主義的な意味での重要な尺度として使用されないからです。ββplausible

私は実際にそれを何と呼ぶか​​わかりませんが、実際にいくつかのアプリケーションを使用していて、研究デザインの理由として非常に役立つ測定基準があるということを除いてです。基本的に、提供する必要のあるデータ量を確認する方法をいくつか提供します(データが使用するプロセスから完全に生成されると仮定して)可能性と以前の形状に関する特定の仮定により、「十分に高い」結果が得られます。特定のサイズの影響の事後確率。βplausible

これが実際に私にとって最も役立つのは、同じ一般モデルを異なるデータセットに繰り返し適用する必要がある状況ですが、データセット間の微妙な違いにより、以前の分布を変更したり、文献レビューの異なるサブセットを使用したりすることが正当化される場合があります。実用的な選択を決定し、さまざまなデータセットに対するこれらの調整の結果として、事後確率が自明ではない可能性のある非常に多くのデータが必要になる場合があるかどうかについて大まかな診断を取得します分布の右側に集中しています。βplausible

この「検出力」の測定基準は、頻度主義の検出力の計算と同じであり、かなり難しいので、誰も誤用しないように注意する必要があります。ただし、これらのメトリックはすべて、モデリング手順全体がベイジアンであり、統計的有意性の結果を参照しない場合でも、前向きおよび後ろ向きの設計分析に非常に役立ちます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.