「すべての青いTシャツを着た人」は体系的なサンプルですか?


17

私はイントロの統計クラスを教えており、k番目の個人またはオブジェクトごとにサンプリングする体系的なサンプリングなど、サンプリングのタイプをレビューしていました。

生徒は、特定の特性を持つすべての人をサンプリングしても同じことを達成できるかどうかを尋ねました。

たとえば、青いTシャツを着たすべての人をサンプリングすることは十分にランダムであり、人口全体を十分に表現できますか?少なくとも、「どの色のTシャツを着るのが好きですか?」以外の質問をする場合は、私の感覚はノーですが、ここの誰かがこれについて何か考えを持っているのではないかと思いました。


12
いいえ。スコットランドのグラスゴーに住んでいた場合、「青いTシャツ」を着ている人のほとんどは、レンジャーズのサポーターでしょう。あなたはケルトの支持者を見逃しているでしょう。グラスゴーでは、サッカーチームが宗教の代理人になります。
csgillespie

1
@csgillespie素晴らしい例!
whuber

また、西洋文化では青は男性に関連しているため、女子よりも男子が多くなる可能性があります
ローランドコフラー

カラーTシャツはホワイトTシャツよりも高価であり、すべてのデザインがすべての色で機能するとは限りません。だから、無害に見えるかもしれませんが、Tシャツを着ている人の間でさえ、あなたはより裕福な人々、またはより衝動的な消費者、または特定の政党を支持する人々を選ぶかもしれません。
ダグラスザーレ

また、年齢とTシャツの着用、文化的背景とTシャツの着用などの間には関連性があります。
グレン_b-モニカを復元

回答:


22

一般的に、あなたの質問に対する答えは「いいえ」です。母集団(特に人間)からランダムなサンプルを取得することは、悪名高く困難です。特定の特性を条件とすることにより、定義によりランダムサンプルを取得しません。これがどの程度のバイアスをもたらすかは、まったく別の問題です。

少し馬鹿げた例として、たとえあなたの人口が「フットボールのファン」であっても、ベアーズとパッカーズの間のフットボールの試合などでこの方法を試してみたいとは思わないでしょう。(クマのファンは、興味のある量がサッカーに直接関係していないように見える場合でも、他のフットボールのファンとは異なる特性を持っている場合があります。)

この方法でサンプルを取得すると、隠れたバイアスの有名な例が数多くあります。たとえば、最近の電話投票が行われた米国の選挙では、携帯電話のみを所有し、固定電話を所有していない人々は、サンプルでは(おそらく劇的に)過小評価されていると考えられています。これらの人々は、概して、固定電話を使用する人々よりも概して若い傾向があるため、偏ったサンプルが得られます。さらに、若い人たちは、古い人たちとは非常に異なる政治的信念を持っています。したがって、これはサンプルが特定の特性に意図的に条件付けされていない場合でも、そのように発生した場合の単純な例です。そして、たとえ世論調査は何の関係もなかったにもかかわらず いずれかの条件付け特性(つまり、固定電話を使用するかどうか)では、統計的および実際的に、世論調査の結論に対する条件付け特性の影響が有意でした。


6

サンプルへの単位の選択に使用している特性の分布が、推定する母集団の特性の分布と直交している限り、選択条件付けにより母集団の量の不偏推定値を取得できます。サンプルは厳密にランダムなサンプルではありません。しかし、ユニットをサンプルに選択するために使用されるランダム変数は、ランダムではないため、母集団特性の分布に直交しているため、人々はランダムサンプルが良いことを見落としがちです。

P(invlogit(x_i))を使用してベルヌーイからランダムに描画することを考えてみましょう。[-inf、inf]のx_iはユニットiの特徴で、Cov(x、y)!= 0、yは母集団の特性です。推定したいという意味です。サンプルは、サンプルに選択する前にランダム化するという意味で「ランダム」です。ただし、サンプルはyの母平均の不偏推定値を生成しません。

必要なのは、ランダムに割り当てられた変数と同じくらい良い変数のサンプルに選択を条件付けることです。すなわち、それは、関心のある量が依存する変数に直交しています。ランダム化は、ランダム化自体ではなく、直交性を保証するので優れています。


4
これは正しいですが、本当にランダムなサンプルがない限り、それが直交であるかどうかをどのように知るでしょうか?
ピーターフロム-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.