ランダムなサンプルが明らかに代表的でない場合はどうなりますか?


28

ランダムなサンプルを取り、それが明らかに最近の質問のように代表ではないことがわかる場合はどうでしょう。たとえば、人口分布が0を中心に対称であると仮定し、ランダムに描画するサンプルに不均衡な正と負の観測値があり、不均衡が統計的に有意である場合、どうなりますか?バイアスされたサンプルに基づいて、母集団についてどのような合理的な説明をすることができますか?そのような状況での合理的な行動方針は何ですか?私たちの研究でこの不均衡に気づいたとき、それは重要ですか?


2
マイケル、統計的有意性を指標として使用すると、この問題は20回に1回発生することが予想されます。ほとんどの場合、母集団について十分に知らないため、非代表サンプルをランダムに選択した時期はわかりません。しかし、私たちが人口について何かを知っていて、そのような異常に気付いたら、私たちは何をしますか?
ジョエルW.

3
はい、最も正しい方法は、@ MichaelChernickが書いたように、十分に大きいランダムサンプルを取得することです。しかし、私の教授の一人は、研究者がサンプルサイズを大きくしなければならない場合、サンプルに統計的な単位を単純に追加することはそれほど正しくないが、サンプリングを繰り返す必要があることをモンテカルロシミュレーションで検証したと言っています。そうしないと、統計にバイアスがかかる可能性があります(もう一度!)。
this.is.not.a.nick

4
@マイケル、あなたの声明が本当である理由がわかりません。サンプルサイズに関係なく、5%の時間の帰無仮説では、0.05未満のp値が発生します。それでは、サンプルサイズを大きくするとこの問題を解決できる可能性があります。あなたの推薦は、暗黙のうちに読者に仮説テストのサイズとパワーを混同するように誘うようです。
whuber

2
@Michael、より多くのデータをランダムに収集する必要があるとはどういう意味ですか?他の方向にバイアスされたサンプルをランダムに描画することを望んでいますか?いずれにせよ、追加のケースをいくつ描画する必要がありますか?開始時に番号を設定するか、停止ルールを使用することをお勧めしますか?停止ルールの場合、ルールはどのように見えるでしょうか?最後に、結果の大きなサンプルに統計的に有意なバイアスがない場合でも、バイアスがあるサンプルとないサンプルの2つのサンプルで構成されていることがわかります。このような複雑なサンプルに基づいて、母集団についてどのような合理的な説明をすることができますか?
ジョエルW.

2
@Michael別の結論は、非常に重要で、非常に歪んだサンプルがサンプリング手順に問題があることを示しているということです。その場合、対称性の欠如はより大きなサンプルで持続します。
whuber

回答:


7

MLSによって与えられた解答(使用の重要性サンプリングは)のみ、あなたのディストリビューションについて行うことができます仮定として良いようです。有限母集団サンプリングパラダイムの主な長所は、有限母集団パラメーターで(有効な)推論を行うためのデータの分布に関する仮定を行わないため、ノンパラメトリックであることです。

サンプルの不均衡を修正するアプローチは、後層化と呼ばれます。サンプルを重複しないクラス(階層後)に分割し、既知の母集団の数値に従ってこれらのクラスを再重み付けする必要があります。母集団の中央値が0であることがわかっている場合、正と負の観測値を再重み付けして、それらの加重比率が50-50になるようにすることができます。負のものは15/10の重み= 1.5、正のものは15/20 = 0.75です。

より微妙な形式のサンプルキャリブレーションが存在します。これにより、連続変数の平均が特定の値に等しくなるなど、より一般的な制約を満たすようにサンプルをキャリブレーションできます。対称性の制約を使用するのはかなり困難ですが、それも実行可能かもしれません。Jean Opsomerはこれについて何かを持っているかもしれません。彼は調査データのために多くのカーネル推定作業を行ってきました。


層別化後は、論理的または統計的に、単純に不均衡なサンプルを破棄して別のサンプルを描画する方法と比較してどうですか?(サンプルの描画は、研究の労働集約的な部分である場合がありますが、多くの実験的研究のように、サンプルを描画した後、労働集約的であり、サンプルの描画に比較的小さな労力しかかかりません。)
Joel W 。

2
データを破棄することが最良の答えであるという状況に陥ったことは一度もありません。また、調査統計の本でそれについて議論されたこともありません。ほとんどの調査統計では、データの取得は、次のデータ処理および分析の少なくとも5倍の費用がかかります(おそらく、データ収集がほぼ無料の一部の安価なWeb調査を除く)。実験的な世界にいる場合は、投稿に「サンプリング」というタグを付けず、代わりに「実験設計」を使用する必要があります。
StasK

現実世界の環境で層別化する方法には多くの方法があるため、層別化ではなくランダムサンプルを使用できます。実験のために2つのランダムなサンプルを選択した後、顕著な不均衡に気付くことがあります。そして、あなたは岩と困難な場所の間で立ち往生しています:不均衡で生きる(例えば、1つのグループのすべての高齢者、1つのグループのすべての非ネイティブスピーカー、1つのグループのすべての博士号など)、または新しいサンプルを作成し、あなたがしたこととすべての統計的手法の仮定との関係を弱めます。後成層化は2番目のタイプのようです。
ジョエルW.

2

私はここのジュニアメンバーですが、サンプルが非常に代表的でないことがわかっていて、そもそも非代表的なサンプリングがどのように発生した知っているなら、破棄してやり直すことが常に最良の答えだ思います可能であれば2回目に回避する方法。

もしあなたがおそらく同じ船に乗ってしまうなら、2回目のサンプリングをすることは何をするでしょうか?

データ収集を再度行うことが意味をなさないか、法外にコストがかかる場合は、層別化、代入、手の込んだモデリングなどを介して非代表性を補おうとして、所有しているものを処理する必要があります。このようにして報酬を支払ったこと、なぜそれが必要だと思うのか、なぜそれが機能したと思うのかを明確に注意する必要があります。それから、あなたの補償を通してあなたの分析を通してずっと生じた不確実性を働かせてください。(それはあなたの結論をより不確実にするでしょう?)

それができない場合は、プロジェクトを完全に削除する必要があります。


サンプルが代表的でない理由がわからない場合、それを破棄して新しいランダムサンプルを描画することを正当化できますか?そうでない場合は、なぜですか?また、最初のサンプルを破棄して2番目のサンプルを描画するとします。2番目のサンプルに基づいて計算された推論統計は、破棄された最初のサンプルのために不適切です。たとえば、代表的でないサンプルの破棄にサブスクライブしている場合、統計テストのベースとなるサンプリング分布を変更していますか?もしそうなら、統計的有意性を見つけるのをより簡単にしたり難しくしたりしますか?
ジョエルW.

@ウェイン良いアイデア。
サブハッシュC.ダバール

1

qpp

sp=E{fバツ|バツp}spf{バツ1バツn}p

sp1n=1nfバツ
バツqsp
sp1n=1npバツqバツfバツ
E{pバツqバツfバツ|バツq}=pバツfバツdバツ

サンプルにはバイアスがかかっておらず、サンプルを修正しようとするとバイアスが加わると言います。サンプルが収集されたプロセスには偏りがないことをお勧めしますが、実際には、サンプルには偏りがあり、おそらく深刻な偏りがあります。比較的小さな追加バイアスを導入すると予想される既知の大きなバイアスを修正しようとする方法はありますか?
ジョエルW.

1
用語を少し曖昧にするために:私はバイアスをランダム変数の期待の特性と考えています。言い換えれば、データを収集するプロセスに偏りがない場合、サンプルも同様です。ただし、サンプルは依然として非定型であり、望ましくない結論につながる可能性があります。これを修正する一般的な方法は、(不偏の)サンプリング手順を適応しているため、バイアスを引き起こします。おそらく、偏りの少ないアプローチは、新しいサンプルを収集して使用することです。少し偏ったアプローチでは、これらの新しいサンプルを古いサンプルに追加しますが、合計サンプル数が多いため、結果の変動は小さくなります。
MLS

2
@Joel W.サンプルにバイアスがかかっているとはどういう意味ですか?偏ったサンプルに基づいた平均の推定値ですか?サンプルの推定値は真の平均値とは異なり、一部の推定値は遠くなる可能性があります。ランダムにサンプリングする場合、これはバイアスではなく分散によるものです。サンプルの分布は母集団の分布とは大きく異なることがわかっているため、サンプルにバイアスがかかっていると言うのは正しくありません。小さなサンプルでは、​​多くの理由が何らかの理由で代表的ではないように見えますが、ランダムサンプリングはバイアスサンプリングではありません。
マイケルR.チャーニック

1
@Michael、私たちは、必要に応じて、ランダムな分散を認識し、それとともに生きなければならないことに同意します。意図しない分散を検出したときに合理的に何をするかを尋ねています。これらのカテゴリが私たちの研究に関連しているときに、ランダムなサンプルに比較的多くの若者やブルーカラーの労働者などが含まれると判明した場合はどうなりますか?さらに進んで、サンプルがこのような方法で不均衡であるかどうかを確認する必要がありますか?そして、サンプルでさらに研究を行う前にこれに気づいた場合、またはサンプルで研究を行うためにリソースを投資した後に重要ですか?
ジョエルW.

1
共変量の不均衡は非常に重要です。サンプルに存在する場合、回帰モデルを使用して調整できます。ヴァンスバーガーは、このトピックに関する本を執筆しており、おそらくこのWebサイトで以前に引用しました。これは、本の説明へのAmazonリンクです。 amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/...
マイケルR. Chernick
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.