サンプルが国勢調査よりも正確であるとしばしば主張されているのはなぜですか?


13

サンプリングのコースを学習するとき、次の2つのステートメントを満たします。

1)サンプリングエラーはほとんど変動性につながり、非サンプリングエラーはバイアスにつながります。

2)非サンプリングエラーのため、サンプルは多くの場合CENSUSよりも正確です。

これら2つのステートメントを理解する方法がわかりません。これら2つのステートメントを取得するための基本的なロジックは何ですか?


5
真の国勢調査または未遂 1?
枢機:

回答:


16

演習が国勢調査であるという事実が非サンプリングエラーからのバイアスを増加させる場合、サンプルは(試行された)国勢調査よりも正確である可能性があります。これは、たとえば、国勢調査が非応答(サンプルに起こる可能性が低いもの)を主張する不利な政治キャンペーンを生成する場合に発生する可能性があります。これが発生しない限り、サンプルが国勢調査よりも非サンプリングエラーが少ないと予想される理由はわかりません。定義上、サンプリングエラーが多くなります。かなり珍しい状況を除けば、国勢調査はサンプルよりも正確になると思います。

非サンプリングエラーの一般的な原因、たとえば特定の社会人口グループによる体系的な非応答を検討してください。グループXの人々が国勢調査を拒否する可能性が高い場合、サンプルも拒否する可能性があります。層化後サンプリングを行って、グループXのユーザーの応答を重み付けしてものはプロの調査されているXの非常セグメントであるかもしれないので、あなたの質問に答えるために説得を、あなたはまだ問題を抱えています。この問題を回避するための実際の方法は、機器と配送方法の設計にできるだけ注意を払うことです。

ちなみに、これは、試みられた国勢調査の精度をサンプルよりも低くする可能性のある1つの問題に注意を向けています。サンプルには通常、母集団に対する後層化の重みがあり、上記の私のような問題からのバイアスの問題を軽減します。100%の利益を得られない国勢調査の試みは、単なる大きなサンプルであり、原則として同じ処理の対象となるはずです。しかし、「国勢調査」(国勢調査の試みではなく)と見なされるため、これは無視される可能性があります。そのため、国勢調査は適切に重み付けされたサンプルよりも精度が低い可能性があります。しかし、この場合、問題は分析処理手法(または省略)であり、国勢調査の試みに固有のものではありません。

効率は別の問題です。ミシェルが言うように、適切に実施されたサンプルは国勢調査よりも効率的であり、実際の目的には十分な精度を持っている可能性があります。


1
+1これは、質問とその動機を理解するための思慮深く有益な努力を反映しています。
whuber

サンプルと不完全な国勢調査との違いは、単にサンプルの回答に重みを付ける傾向が高いだけではないと思います。結局のところ、重み付けの数値はどこかから取得する必要があります-国勢調査、またはより高品質のサンプリング。
ジョナサン

サンプル内の非応答バイアスを最小限に抑える機能を本当に強調します。国勢調査でさえも、無回答のバイアスを効果的に克服できる国勢調査はほとんどありません。おそらくそれをうまくできるのは、従業員の満足度調査だけでしょう。サンプリングされた調査で無回答の後に行く方がはるかに費用効率が高くなります。
ジョナサン

国勢調査では、各インタビュー/ ...の品質管理にコストがかかることがあります(そうなるでしょう)!多くの場合、データの品質は国勢調査よりもサンプルの方が優れています。
kjetil bハルヴォルセン

5

サンプルがより正確になる実際的な状況があると思います。たとえば、未登録の場所に住んでいる多くの人々と、常に応答することを恥ずかしがり屋である発展途上国の都市で研究を行いました。国勢調査を実際に行おうとすると、ヘラクレスの努力が必要であり、私たちの資源を考えれば、人々が行き来する数ヶ月の間にそれをしなければならなかったでしょう。サンプルを使用すると、できる限り完全な応答に近づけることを確認するためにより多くの時間を費やすことができます-私たちが何をしていたかを説明できるためです-そして、問題を取り除くはるかに短い時間枠でそれを行うことができます出入りする人々の数。

だから、答えはあなたがしていることのロジスティックスと、非サンプリングエラーのさまざまな原因にもっと依存すると思います。

実際、別の情報源は、調査が複雑であり、インタビュアーを訓練する必要があり、その国で十分な訓練可能なインタビュアーを見つけて資金を提供することは非常に難しいということでした。


5

調査のために人間をサンプリングするとき、サンプルはしばしばサンプリングエラー(推定値を取得しているだけ)非サンプリングエラー(たとえば、コストなどの実際的な考慮のために必要なサンプルフレームへのサンプリングではなく、調査への回答を拒否する人々)の両方に苦しみます。サンプルを抽出するために母集団を正確に特定できない)。正しく行われ、高い応答率で、サンプルは国勢調査よりも効率的です。しかし、サンプルに非サンプリングエラーが含まれていないと仮定するのは正しくありません。


+1。お返事ありがとう、ミシェル、コミュニティへようこそ!
whuber

1
こんにちはwhuber、ここにいて良かったです。歓迎してくれてありがとう。:)
ミシェル

1
@Michelle少し修正。サンプリングエラーとは、母集団全体を選択しないことから生じるエラーです。つまり、母集団の特性を推測するためにサンプルを使用することによるエラーです。非サンプリングエラー等、適切なサンプリングフレームを作成するために、非応答、故障などの他のすべて、測定誤差、である
ブレット

3

彼らの鍵はピーター・エリスの答え「試みられた」にあると思います。サンプリングを適切に行うと、非応答の詳細に汗を流し、層を把握してそれらを探索します。国勢調査を行うことにした場合、「全員」になっているため、これらの問題を無視するのは簡単です。問題は、おそらく全員を獲得していないのに、実際に獲得していない人について考えていないことです。

また、非常に大きなサンプル(サンプリングされた母集団の割合として)には統計上の問題があります。私はそれらを理解するほど精巧ではありませんが、少なくとも、分散の計算には問題があります。(Rのようなパッケージsurveyは、調査の大規模な部分母集団でそのようなことを補い、それが私が最初にこれについて学んだ場所です。)

副次的な問題として、非サンプルエラーにプロセスのさまざまなステップでの品質管理に起因する問題が含まれる場合、非常に多くのデータ(国勢調査)があると、同じ品質管理レベル(同じものを使用)リソース)のより小さなデータセット(サンプル)。

米国国勢調査局が国勢調査に使用したリソース(金融および人事)があり、1,000人のランダムな成人の調査のみを行っていたとします。品質管理がはるかに優れており、関連する問題とデータ自体の分析がはるかに優れていると思います。


2

調査が実際に行われた国勢調査よりも正確である可能性がある(とは限らない)理由は、人口調査対サンプルの性質に起因し、潜在的に大きなバイアスを有する国勢調査の原因と考えられる1つのコンポーネントを持っていると思いました(明らかに非サンプリング、定義により):国勢調査では、人口数は一般に不明です。したがって、非応答バイアスを最小化または制御することは、既知のサイズのサンプルを使用して行うよりもかなり困難です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.