リサンプリングシミュレーションの中心的な傾向が観測値と著しく異なるのはなぜ/なぜですか?


8

ブートストラップされたサンプルの中心傾向(つまり、平均値および/または中央値)が観測値に類似していることを常に期待する必要がありますか?

この特定のケースでは、被験者の2つの条件に指数関数的に分布する応答があります(私は実験を実行せず、データしかありません)。私は効果サイズをブートストラップするタスクを課されました(コーエンのdの観点から、1サンプルの式、つまりは、母標準偏差のサンプル推定です。これのフォーラムはRosenthal&Rosnow(2008)のpg 398、式13.27で提供されています。これらは分母にを使用しています。これは歴史的に正しいためですが、標準的な実務ではdをを使用するように誤って定義しているため、上記の計算でそのエラーを続けています。MD¯sDσs

参加者内(つまり、参加者のRTが複数回サンプリングされる場合がある)と被験者全体(参加者が複数回サンプリングされる場合がある)の両方をランダム化したため、参加者1が2回サンプリングされても、両方のサンプルの平均RTはありそうにありません完全に等しい。ランダム化/リサンプリングされたデータセットごとに、dを再計算します。この場合、です。私が観察しているのは、コーエンのdの観測値が、シミュレートされた観測値の2.5パーセンタイルよりも通常97.5パーセンタイルに近い傾向です。また、ブートストラップの中央値よりも0に近い傾向があります(シミュレートされた分布の密度の5%〜10%)。Nsim=10000

これを説明できるものは何ですか(私が観察している効果の大きさを覚えておいてください)?それは、リサンプリングの際の平均値の端部と比較して観察されたものよりも極端な分散を取得するほうが、リサンプリングの際に「簡単」であるためですか?これは、過度にマッサージ/選択的にトリミングされたデータを反映しているのでしょうか?このリサンプリングアプローチはブートストラップと同じですか?そうでない場合、CIを作成するために他に何をする必要がありますか?

回答:


4

非線形統計(サンプル平均などの線形統計の非線形組み合わせ)では、サンプルバイアスが小さくなります。コーエンのも例外ではありません。それは、本質的に であり、少なくとも分母の項までは、かなり非線形です。それぞれの瞬間は、推定されるものの不偏推定量と見なすことができます: ただし、Jensen ' 不等式地球上で、非線形の組み合わせから母集団の量の不偏推定量を得る方法はありません。したがってd

d=m1m2m3m42
m1=1n1igroup 1yi,m2=1n2igroup 2yi,m3=1n1+n2iyi2,m4=1n1+n2iyi,
E[d]有限サンプルの母集団。ただし、バイアスは通常オーダーです。効果の大きさに関するウィキペディアの記事では、ヘッジのについての議論の中で、サンプルの小さなバイアスについて言及しています。dO(1/n)g

コーエンの範囲は限られていると思います(極端な場合、グループ内に変動性がない場合、はに等しくなければなりませんか?)、そのため、そのサンプリング分布は歪んでいる必要があり、有限のサンプルバイアスに寄与します。 (サンプリング分布の歪度の一部の関数は、通常、前述の前の乗数です)。許容範囲の限界に近づくほど、歪度は顕著になります。dd±21/n

ブートストラップが何をするのかというと、奇妙なことに、それがそのような単純な方法であると考えると、ブートストラップの平均と元のサンプルからの推定値を比較することによって、この有限サンプルバイアスを推定できるようになります。(ただし、ブートストラップサンプリングの設定方法に特別な調整を行わない限り、前者はモンテカルロ変動の影響を受けることに注意してください。)とにかく読む価値のある別のブートストラップ質問より詳細で技術的な説明を提供しました。

正のバイアスがある場合、つまり、元のサンプルに基づく推定が母集団に対して上方にバイアスされている場合、ブートストラップはそれを模擬し、平均してサンプル推定よりもさらに高い推定を生成します。バイアスを定量化して元の推定値から差し引くことができるので、実際にはそれほど悪くはありません。数量の元の推定値がで、ブートストラップ複製の平均ブートストラップがである場合、バイアス推定値は、およびバイアス補正された推定値はです。dθ^nθ¯nb^n=θ¯nθ^nθ^nb^n=2θ^nθ¯n


1
コーエンのdは偏った統計であることはすでに知っていました。それが偏っている理由の詳細に感謝します。それにもかかわらず、私が観察している程度に偏っているのには少し懐疑的です。ウィキペディアの記事では、参照されている方程式で「a」を定義していません。さらに、参照されている方程式とあなたの方程式は、コーエンのdの2つのサンプルバージョンを参照しているように見えます。したがって、私はこの場合にどの程度のバイアスを期待するべきか、そしてあなたの答えが私が見ている違いをカバーしているかどうかわかりません。
russellpierce 2014年

最後の2つの段落をどのように組み合わせるかについても不明です。ブートストラップを使用すると、バイアスを推定できますが、元のサンプルよりもバイアスの多い結果も得られますか?
russellpierce 2014年

私の式にはがありません- あなたが参照しているは何ですか?最後の段落を更新して、バイアス補正されたブートストラップ推定値を取得する方法を示しました。私はエフェクトサイズの専門家ではありません。また、リンクを提供していなかったので、入手可能な最良の情報であるWikipediaを使用しました。1サンプルのコーエンのが同様で、非線形でもある場合、私の説明は定性的に当てはまります。aad
StasK 2014年

リンクされた記事のヘッジのg式では、を使用します。質問を更新して、コーエンのd参照の1つのサンプルを含めます。それは確かに非線形です。あなたの応答はバイアスを予測していますが、観測された違いはそれよりもはるかに極端だったので、あなたの答えが私が見ている問題をカバーしているとは思いません。上記で詳細を提供しました-ブートストラップ手順を適切に実装しなかった可能性があります。aO(1/n)
russellpierce 2014年

O(1/n)はレートです。その項の前の定数が導出されたかなりばかげた結果を見てきました(誤解しないでください、これらの定数を導出するこの非常に重いリフティングは、レート自体を確立するよりも困難です)。に収束すると思われる確率のはようになります。Wikipediaの数式のは、合計のや積分のような単なるダミーインデックスです。記事を書いた人は誰でも、がガンマ関数の比率の省略形であることを示すために、そこに貼り付けました。1/n1108/naixJ(a)
StasK 2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.