クラウドソーシングデータのサンプリングモデル？

私は、発展途上国での使用を計画しているオープンな健康調査アプリケーションに取り組んでいます。

基本的な考え方は、調査インタビューはクラウドソーシングであるということです-彼らはモバイルデバイスを使用して行ったインタビューのフォームデータを提出する未組織のボランティアによって行われ、各調査にはインタビュー場所のGPSデータが付随します。

政府機関がまとめた従来の調査は、通常、標準サンプリングモデル（通常は確率サンプリングモデル）を使用して実装されます。これには、常に実行できるとは限らない多くの集中計画が必要です。（私の質問を正しい文脈に置くためにこれに言及した）

私たちは、ボランティアが自分の地域の周辺で便利なサンプリングを実施すると言うことができます。彼は、彼が到達できる人数を任意にインタビューします。

基本的な問題は、この測量システムの全体的なサンプリングモデルをどのように理解し、特徴付けることができるかです。そのような場合に対処するための方法論または構成モデルはありますか？

sampling

— アル・アムジャド・タウフィク・イシュタイフ
ソース

簡単な答え：これは便利なサンプルです。それを正当化するためにできることは何もありません。

やや長い答え：あなたは、FacebookやGoogle+にランダムに表示される1問のアンケートに誰が回答するかについてよく知らずに内部調査を実行する多くのソーシャルネットワークと同じ船に乗っています...これらの巨人とは異なり、応答しなかった人に関するデータはありません。調査と世論調査のコミュニティは一般に、このタイプの仕事を嫌っています。これらの偏りのあるサンプルの結果を総人口に一般化できるかどうかはまったく明確ではないからです。既知の人口統計に従って再重み付けを試みることができますが、その後、コンピュータの使用方法を知っている人口の70歳以上の男性のみに割り当てられた1,000,000に自分自身を表すだけの1から重みのバリエーションになります（とにかく、残りの1,000,000人の70歳以上の男性の代表ではない可能性が高い）。

追加の読み物：偏りのあるサンプルに関する章で、「統計を活用する方法」を開きます。サンプルデザインについて不満を漏らさずに読むことができる場合は、先に進むことができます。ボランティアに依存している場合、サンプルは、電子ガジェットへのアクセスが良い若い人口や都市人口に偏っています。同様に、米国統計協会の元会長であるフリッツ・シェーレンがまとめた「調査とは」小冊子は、当時存在していた偏ったポーリング技術では勝利を予測できなかったハリー・トルーマンの写真から始まります。

到達困難な集団に関する研究がいくつかあります。よく知られているプロジェクトの1つは、地理的エリアがサンプリングされたイラクの過剰死亡者数に関する調査であり、各エリアで、地元の医師は都市ブロックのすべての家庭からのインタビューを求めます。この設計に対する批判が高まっていますが、妥協しても、サンプリング要素は残っていました。Lancetの論文をご覧ください（おそらくご存知のように、医療の世界ではこれ以上名声を得ることはできません）http://dx.doi.org/10.1016/S0140-6736( 04)17441-2およびhttp：//dx.doi .org / 10.1016 / S0140-6736（06）69491-9。

— StasK
ソース

（+1）Stas、クォータサンプリングとは根本的に異なるものがありますか？ちょうど好奇心が強いのですが、質問を大まかに読むと、用語の単なる変更のように見えます。また、簡単に説明すると、イラクのクラスターサンプリング調査の主な批判は何ですか？私はそれが最初に出たときにこれを見て、それについて少し読んだのを覚えています。

— 枢機

違いの1つは、個人ごとにクォータがないことだと思います...;）

— 枢機

どうもありがとうございました！今、私はアイデアを再設計する前に十分に理解しています！

— アルアムジャドタウフィクイスタフ

en.wikipedia.org/wiki/Lancet_surveys_of_Iraq_War_casualties

— StasK

少数のクラスターに問題があり、1つのクラスターは、軍事行動が国内のどこよりもはるかに高い異常値になったと思います。私にとって最初に注目すべきことは、この研究に関するAAPORおよびASAのステートメントです。ランセットは優れた医学雑誌であり、ジョン・ホプキンスは優れた医学であるが、AAPOR当局を盗聴し、方法論の文書を否定することは専門家ではなかった。

— StasK