分布がわからない場合のサンプリング方法


9

私は統計学(初心者レベルの少数のUniコース)にかなり慣れていないので、未知の分布からのサンプリングについて疑問に思っていました。具体的には、基になるディストリビューションがわからない場合、代表的なサンプルを取得することを「保証」する方法はありますか?

説明する例:富のグローバルな分布を把握しようとしているとしましょう。特定の個人について、あなたはどういうわけか彼らの正確な富を見つけることができます。しかし、地球上のすべての人を「サンプリング」することはできません。したがって、n = 1000人をランダムにサンプリングするとします。

  1. サンプルにビルゲイツが含まれていない場合、億万長者は存在しないと思うかもしれません。

  2. サンプルにビルゲイツが含まれていた場合、億万長者が実際よりも一般的であると考えるかもしれません。

どちらの場合でも、億万長者がどれほど一般的またはまれであるかを実際に知ることはできません。存在するかどうかさえわからないかもしれません。

このような場合には、より良いサンプリングメカニズムが存在しますか?

使用するサンプリング手順(および必要なサンプル数)をアプリオリにどのように伝えますか?

合理的な確実性に近づくと、知るには人口の大部分を「サンプリング」する必要があるかもしれません。これは、億万長者が地球上にどの程度いるか、または珍しいかであり、これは基礎となる分布が少し難しいためです。一緒に働きます。


1
富の分布のケースでは、多くは正確に目的が何であったかに依存します。たとえば、個人を上位10%、上位20%などにする富のレベルを推定することを目的とした場合、サンプルに億万長者が含まれているかどうかは重要ではありません。しかし、目的が合計で保有されている富の割合を上位10%まで見積もることであった場合、サンプリングが億万長者をどのように処理したかがおそらく重要になります。ここでの一般的なポイントは、サンプルが代表的なものであるかどうかは常に、実行しようとしていることに関連しているということです。
Adam Bailey

本当に?未解決の問題、良い答えはまだ近似値です(時にはより良い、時にはより悪い)。それは未解決の問題であり、おそらく統計の単一の未解決の問題です
ニコスM.

回答:



7

あなたができることは2つあります(別々にまたは組み合わせて)

尻尾をモデル化する

1つは、パラメトリック分布を使用して分布の裾をモデル化することです。べき乗則は富の分布によく適合することが知られているため、パレート分布を試してください。その分布を最大尤度で、つまり、サンプルを最もよく表すパラメーターを見つけることで近似します。または、より良い方法として、パラメーターにベイジアン事前分布を適用して、事後全体を計算することができます。

残念ながら、べき乗則はパラメータに非常に敏感であり、サンプルに多くの大きなデータポイントがないと、指数について多くの不確実性が生じます。億万長者の推定数はこのパラメーターに敏感ですが、億万長者の平均的な富よりはるかに少ないため、状況はそれほど悪くありません。

重要度サンプリング

もう1つは、サンプルの収集方法を変更することです。モナコやチューリッヒの方がモガディシウよりも一人当たりの億万長者の数が多いと思っているとしましょう。これらの各都市の人口がわかっている場合は、より多くの億万長者が表示されると予想される都市でより大きなサンプルを収集し、他の都市ではより小さなサンプルを収集できます。

つまり、チューリッヒには40万人、モガディシュには140万人がいるとします。ここでは、億万長者ではなく億万長者の数に関心があります。

公平なサンプルでは、​​チューリッヒで2,000人、モガディシュで7,000人が選択されます。ただし、チューリッヒから7倍の頻度でサンプリングすることで、サンプルにバイアスをかけます。したがって、チューリッヒには2,800,000人の人々がいると "偽装"し、後で調整します。つまり、モガディシュでは2,000人と4,000人ではなく、チューリッヒでは6,000人を投票することになります。

チューリッヒのサンプルでは21億万長者を数え、モガディシュのサンプルでは1人しか数えていません。チューリッヒを7倍にサンプリングしたので、300万人は数えるだけです。

この手順により、推定量の分散が減少します。また、最初の方法と組み合わせて使用​​することもできます。その場合、パラメトリック分布を近似するときに重要度サンプリングを調整します。


6

良いサンプリング方法は、システムの以前の知識に基づいていると思います。あなたの分野では、サンプリングに影響を与える可能性のあるバイアスについての知識があります。その知識を持っていない場合は、文学から取得できます。

あなたの例では、億万長者がいて、彼らがあなたのサンプリングにバイアスをかけるかもしれないことを知っています。したがって、教育レベル、国、職種などによってサンプリングを層別化することを決定できます。複数のオプションがあります。

別の例を試してみましょう。あなたの目的は、公園内のネズミ種の存在量を決定することです。この公園には森と牧草地があります。文献によると、ネズミは牧草地よりも森に多くいることがわかります。したがって、この特性によってサンプリングを層別化します。他のサンプリング手順も可能ですが、あなたの最良の情報は既存の文献からのものになると思います。

そして、あなたの分野に関する文献がない場合はどうなりますか?ありそうにありませんが、そのコンテキストでは、サンプリングのために考慮に入れる必要がある要因を確認するために事前調査を行います。


2

サンプルが代表的であるかどうかは、サンプルの観測された測定値とは関係ありません。観測単位のすべてのセットが、同じサイズの他のセットと同じ確率で選択される場合、サンプルは代表的です。もちろん、サンプルスペースの完全な列挙を取得できない限り、これを行うのは困難です。これを(たとえば、国勢調査地区のデータから)取得できると仮定すると、単純なランダムサンプルが代表的です。

どのようにサンプルを取得しても、常に考慮すべき少なくとも3つの個別のエラーソースがあります。

サンプリングエラー:偶然にも、代表的なサンプルにBill Gatesが含まれています。統計的方法、特に信頼区間の幅などは、手元の分布についてある程度の大まかな知識(たとえば、富の分布には明らかにない正規性)がある場合に、これを処理するように設計されています。

サンプリングバイアス:サンプルは代表的なものではありませんでした。例:ビルゲイツにはリストにない番号があるため、電話番号の調査が彼に届くことはありません(「ランダム数字のダイヤリング」などを使用しない限り)。これは極端な例ですが、サンプリングバイアスは非常に広まっています。よくあるのは、オンサイトまたは便利なサンプルを取ることです。レストランの常連客は、レストランが好きかどうか、どれくらいの頻度でそこに戻ったか、また戻ってくる予定があるかどうかをサンプリングします。リピート顧客は、1回限りの顧客よりもはるかにサンプリングされる可能性が高く、このタイプのサンプルは、態度に深刻な偏りがある可能性があります。

応答バイアス:測定自体は不正確です。これは、メーターの誤動作から、量子効果への意識的な嘘(例、ハイゼンベルグの不確定性の原理)まで、あらゆる原因で発生する可能性があります。


この回答には役立つアドバイスがあり、十分な根拠をカバーしています。「代表的」の特徴付けは制限が多すぎる可能性があることをお勧めします。これは、層別サンプリング、重要度サンプリング、体系的サンプリングの形式など、一般的で有用な形式のサンプリング(他の回答で特に言及されているものを含む)を除外するためです。観測単位のセットを含める可能性がわかっている場合(したがって、偏りのない推定値を生成するために使用できる場合)はサンプルが代表的であるが、特定のサイズのすべてのセットで必ずしも一定ではない場合、サンプルは代表的であることを許可するだけで十分ではないでしょうか?
whuber

@whuber「観測単位のセットを含める可能性がわかっている場合、サンプルが代表的であることを許可するだけで十分ではありません...」:これは正しいので、層別サンプリングと重要度サンプリングを認めるために私の回答を編集する必要があります。しかし、体系的なサンプリングは危険であり、リンクや他の場所で与えられたアドバイスは単に間違っています。データに体系的なパターンがある場合、ランダム化された開始点はバイアスを排除しません。それは、バイアスを計算できないことを確認することだけです。
user3697176 2014年

おそらくこれまでのところ最良の答え(直接統計的なポイントに
向ける
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.