サンプリングのコースを学習するとき、次の2つのステートメントを満たします。
1)サンプリングエラーはほとんど変動性につながり、非サンプリングエラーはバイアスにつながります。
2)非サンプリングエラーのため、サンプルは多くの場合CENSUSよりも正確です。
これら2つのステートメントを理解する方法がわかりません。これら2つのステートメントを取得するための基本的なロジックは何ですか?
サンプリングのコースを学習するとき、次の2つのステートメントを満たします。
1)サンプリングエラーはほとんど変動性につながり、非サンプリングエラーはバイアスにつながります。
2)非サンプリングエラーのため、サンプルは多くの場合CENSUSよりも正確です。
これら2つのステートメントを理解する方法がわかりません。これら2つのステートメントを取得するための基本的なロジックは何ですか?
回答:
演習が国勢調査であるという事実が非サンプリングエラーからのバイアスを増加させる場合、サンプルは(試行された)国勢調査よりも正確である可能性があります。これは、たとえば、国勢調査が非応答(サンプルに起こる可能性が低いもの)を主張する不利な政治キャンペーンを生成する場合に発生する可能性があります。これが発生しない限り、サンプルが国勢調査よりも非サンプリングエラーが少ないと予想される理由はわかりません。定義上、サンプリングエラーが多くなります。かなり珍しい状況を除けば、国勢調査はサンプルよりも正確になると思います。
非サンプリングエラーの一般的な原因、たとえば特定の社会人口グループによる体系的な非応答を検討してください。グループXの人々が国勢調査を拒否する可能性が高い場合、サンプルも拒否する可能性があります。層化後サンプリングを行って、グループXのユーザーの応答を重み付けしてもものはプロの調査されているXの非常セグメントであるかもしれないので、あなたの質問に答えるために説得を、あなたはまだ問題を抱えています。この問題を回避するための実際の方法は、機器と配送方法の設計にできるだけ注意を払うことです。
ちなみに、これは、試みられた国勢調査の精度をサンプルよりも低くする可能性のある1つの問題に注意を向けています。サンプルには通常、母集団に対する後層化の重みがあり、上記の私のような問題からのバイアスの問題を軽減します。100%の利益を得られない国勢調査の試みは、単なる大きなサンプルであり、原則として同じ処理の対象となるはずです。しかし、「国勢調査」(国勢調査の試みではなく)と見なされるため、これは無視される可能性があります。そのため、国勢調査は適切に重み付けされたサンプルよりも精度が低い可能性があります。しかし、この場合、問題は分析処理手法(または省略)であり、国勢調査の試みに固有のものではありません。
効率は別の問題です。ミシェルが言うように、適切に実施されたサンプルは国勢調査よりも効率的であり、実際の目的には十分な精度を持っている可能性があります。
サンプルがより正確になる実際的な状況があると思います。たとえば、未登録の場所に住んでいる多くの人々と、常に応答することを恥ずかしがり屋である発展途上国の都市で研究を行いました。国勢調査を実際に行おうとすると、ヘラクレスの努力が必要であり、私たちの資源を考えれば、人々が行き来する数ヶ月の間にそれをしなければならなかったでしょう。サンプルを使用すると、できる限り完全な応答に近づけることを確認するためにより多くの時間を費やすことができます-私たちが何をしていたかを説明できるためです-そして、問題を取り除くはるかに短い時間枠でそれを行うことができます出入りする人々の数。
だから、答えはあなたがしていることのロジスティックスと、非サンプリングエラーのさまざまな原因にもっと依存すると思います。
実際、別の情報源は、調査が複雑であり、インタビュアーを訓練する必要があり、その国で十分な訓練可能なインタビュアーを見つけて資金を提供することは非常に難しいということでした。
調査のために人間をサンプリングするとき、サンプルはしばしばサンプリングエラー(推定値を取得しているだけ)と非サンプリングエラー(たとえば、コストなどの実際的な考慮のために必要なサンプルフレームへのサンプリングではなく、調査への回答を拒否する人々)の両方に苦しみます。サンプルを抽出するために母集団を正確に特定できない)。正しく行われ、高い応答率で、サンプルは国勢調査よりも効率的です。しかし、サンプルに非サンプリングエラーが含まれていないと仮定するのは正しくありません。
彼らの鍵はピーター・エリスの答え「試みられた」にあると思います。サンプリングを適切に行うと、非応答の詳細に汗を流し、層を把握してそれらを探索します。国勢調査を行うことにした場合、「全員」になっているため、これらの問題を無視するのは簡単です。問題は、おそらく全員を獲得していないのに、実際に獲得していない人について考えていないことです。
また、非常に大きなサンプル(サンプリングされた母集団の割合として)には統計上の問題があります。私はそれらを理解するほど精巧ではありませんが、少なくとも、分散の計算には問題があります。(Rのようなパッケージsurvey
は、調査の大規模な部分母集団でそのようなことを補い、それが私が最初にこれについて学んだ場所です。)
副次的な問題として、非サンプルエラーにプロセスのさまざまなステップでの品質管理に起因する問題が含まれる場合、非常に多くのデータ(国勢調査)があると、同じ品質管理レベル(同じものを使用)リソース)のより小さなデータセット(サンプル)。
米国国勢調査局が国勢調査に使用したリソース(金融および人事)があり、1,000人のランダムな成人の調査のみを行っていたとします。品質管理がはるかに優れており、関連する問題とデータ自体の分析がはるかに優れていると思います。