1%マイクロデータサンプルを大規模に使用し、統計を小さな領域スケールで集計して、どのようにして小さな領域の人口調査マイクロデータをシミュレーションできますか?


9

個人レベルの多変量解析を、地理的集計の小さなレベル(オーストラリアの国勢調査区)で実行したいと思います。明らかに、プライバシーの理由から、これらの小さなレベルの集計では国勢調査を利用できないため、他の代替案を調査しています。関心のある変数のほとんどすべてがカテゴリカルです。自由に使える2つのデータセットがあります。

  • 1%の国勢調査サンプルは、はるかに高いレベルの空間集約(人口が約190,000で、人口統計の空間分離が広大な地域)で利用できます。

  • 小領域レベルで関心のある変数の度数分布表(500小領域、平均ポップ= 385、sd = 319、中央値= 355)。

これらの2つのデータセットを使用して、小区域の実際の人口にできるだけ近い小区域レベルでの人口分布をシミュレートするにはどうすればよいですか?

これを行うための通常の方法があることを私は感謝しています。もしそうなら、教科書または関連する雑誌の記事へのポインタが非常に高く評価されます。


関連している可能性があります(同様の問題が発生しています):stats.stackexchange.com/questions/14399/…ここでギブスサンプリングが必要になる場合があります。
mzuba

American Statistical AssociationのSRMSNETメーリングリストで質問したい場合があります。あなたがオーストラリアにいるなら、私はレイチェンバーズに近づきます-南半球では、SAEを彼ほどよく知っている人はいないでしょう:)。
StasK 2011

この問題は、「ダシメトリマッピング」と密接に関連しています。
whuber

1
私は@whuberに同意します。また、主題の資料を考えると、dasymetricマッピングはfmarkにとっても興味深いかもしれません。残念ながら、私の回答で引用した生態学的推論の文献とは大きく異なります(これ以上文献を積み上げたくありません!)fmarkはどう思いますか?
アンディW

1
一部のダシメトリックマッピングテクニックでは、補助データを使用して、データをより小さな領域に補間しようとしています。生態学的推論とダシメトリックマッピングの目標は多少異なります(予測/予測と推論の違いに多少似ています)。私が収集した情報源について、私も興味があると思う別の投稿を書きます。残念ながら、私はたくさんの文学を引用するよりもはるかに有用なアドバイスを与えることはできません。それは人気のある現代のトピックであり、うまくいけばあなたはそれに貢献することができます!
Andy W、

回答:


5

ダシメトリックマッピングは、現在普及しているデータで利用できるよりも小さい領域に人口推定値を内挿することに主に焦点を当てています(このトピックに関する多くの有用な参照については、この質問を参照してください)。多くの場合、これは明らかに人口が存在しないエリアを(土地の特性に基づいて)単純に特定し、人口密度を再推定することによって(それらのエリアを省略して)行われました。例としては、都市に水域がある場合や、居住人口のない工業用土地区画を特定した場合などがあります。ダシメトリマッピングへのより最近のアプローチでは、他の補助データを確率論的フレームワークに組み込んで、人口の推定値を割り当てます(Kyriakidis、2004年、Liuら、2008年、Linら、2011年、Zhang&Qiu、2011年)。

これで、質問との関係を簡単に確認できます。小さな地域の人口の見積もりが必要です。しかし、それがどのようにあなたの目標に及ばないかについても明確でなければなりません。母集団データだけでなく、それらの母集団の特性も必要です。この状況を説明するために使用される用語の1つは、サポートの問題の変化です(Cressie、1996; Gotway&Young、2002)。最近の研究では、点のサンプルから広域にわたって特定の特性を予測しようとする地球統計学の文献を借りて、さまざまなターゲットゾーンに面データを内挿することを試みています。Pierre Goovaertsの研究の多くは、このようなエリアツーポイントクリギング手法に焦点を当てています。これは、ジャーナルGeographical Analysisの最近の記事です。 さまざまな主題資料を適用した方法のいくつかの例(Haining et al。、2010)があり、この記事の中で私のお気に入りのアプリケーションの1つがこの記事(Young et al。、2009)です。

私が引用するものは、問題の万能薬として見られるべきではありません。結局、生態学的推論および集約バイアスに関する同じ問題の多くは、面内補間の目標にも当てはまります。ミクロレベルのデータ間の関係の多くは、集計プロセスで単純に失われるので、そのような補間手法ではデータを回復できません。また、データが経験的に内挿されるプロセス(集計レベルデータからバリオグラムを推定することによる)は、プロセスを疑わしくするはずの臨時のステップでいっぱいになることがよくあります(Goovaerts、2008)。

残念ながら、生態学的推論の文献と、ダシメトリックマッピングとエリアツーポイントクリギングに関する文献は重複していないため、これを別の回答で投稿します。生態学的推論に関する文献は、これらの手法に多くの意味を持っています。補間手法は集計バイアスの影響を受けるだけでなく、インテリジェントデータ分析手法(集計データを使用してモデルを近似してより小さな領域を予測する)は、おそらく集計バイアスの疑いがあります。集約バイアスが発生する状況についての知識は、面内補間とダシメトリックマッピングが大幅に失敗する状況(特に、非集約レベルでの異なる変数間の相関関係の識別に関して)を啓発するものです。


引用


現代文学への有用な出発点をありがとう-人口密度の再重み付け以上のことを行うダシメトリ法に気づかなかったので、これを熱心に調べます。
fmark 2011

5

ゲイリーキングの作品、特に彼の著書「生態学的推論問題への解決策」(最初の2つの章はここで利用可能です)は興味深いものです(彼が生態学的推論に使用する付属のソフトウェアも同様です)。キングは本で、利用可能な集計データに基づいて下位グループが持つ可能性のある境界を調べることによって、集計データを使用した回帰モデルの推定をどのように改善できるかを示しています。データが主にカテゴリカルグループであるという事実により、この手法が適用されます。(だまされてはいけませんが、タイトルが与えられれば期待できるほどのオムニバスソリューションではありません!)より新しい作品が存在しますが、キングの本はIMOから始めるのに最適です。

別の可能性は、データ自体の潜在的な境界を(マップまたはグラフで)表すことだけです。たとえば、性別の分布を集計レベル(男性5,000、女性5,000など)で報告すると、この集計レベルには、人口9,000と1,000の2つの異なる小面積単位が含まれることがわかります。次に、これをフォームの分割表として表すことができます。

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

下位レベルの集計のセルには情報がありませんが、限界合計から、各セルの潜在的な最小値または最大値を作成できます。したがって、この例では、Men X Unit1セルは4,000から5,000の間の値しか取ることができません(セルが取る可能性のある値の間隔が小さいほど、周辺分布はより不均一になります)。どうやらテーブルの境界を取得することは、予想していたよりも困難です(Dobra&Fienberg、2000)。ただしeiPack、R のライブラリで関数を使用できるようです(Lau et al。、2007、p。43)。

このタイプのデータでは集約バイアスが必然的に発生するため、集約レベルのデータを使用した多変量解析は困難です。(簡単に言えば、多くの異なる個々のレベルのデータ生成プロセスが集約レベルの関連付けをもたらす可能性があるため、集約バイアスについて説明します)American Sociological Reviewの一連の記事 1970年代には、トピックに関する私のお気に入りの参考文献の一部があります(Firebaugh、1978; Hammond、1973; Hannan&Burstein、1974)。ただし、このトピックに関する正規の出典は(Fotheringham&Wong、1991; Oppenshaw、1984; Robinson、1950) 。多変量解析を実行するための集計データの制限に本当に悩まされていますが、データが取る可能性がある潜在的な境界を表すことは、潜在的に刺激を与える可能性があると思います。それは社会科学においてだれでもそれをすることを止めません(より良いまたはより悪い!)

(チャーリーがコメントで述べたように)キングの「解決策」はかなりの批判を受けた(Anselin&Cho、2002; Freedman et al。、1998)ことに注意してください。これらの批評はキングの方法の数学については完全に言っているわけではありませんが、キングの方法が依然として集計バイアスを考慮に入れられない状況に関してはなおさらです(そして、私はフリードマンとアンセリンの両方に同意する社会科学は依然として疑わしいですが、キングの仮定を満たすものよりもはるかに一般的です)。これは、境界を調査することをお勧めする理由の一部です(それで問題はありません)が、そのようなデータから個々のレベルの相関について推論を行うと、ほとんどの状況で最終的に正当化されない信仰の飛躍がはるかに多くなります。


引用


他の人たちはキングの生態学的誤謬問題へのアプローチに批判的であったことに注意してください。デビッド・フリードマンは注目すべき例です。フリードマンと彼の共著者が上記で引用したキングの本に与える反応は次のとおりです。citeseerx.ist.psu.edu / viewdoc / もちろん、キングには反応があり、フリードマンほか。応答への応答があります...あなたが何をしようとしているのか、どのようなデータを持っているのか、私にはまったくわかりませんが、私は一般に、生態学的推論タイプの分析には非常に懐疑的です。
チャーリー

はい、@チャーリー同意します(特に、この問題に対するFreedmanの見解を特に楽しんでいます)。それが、私の投稿の最後で、集約バイアスに関する一般的な文献を指摘する理由の1つです。「あなたが何をしようとしているのか、どのようなデータを持っているのかはっきりとはわかりませんが、私は一般に生態学的推論タイプの分析に非常に懐疑的です」という文の意味がよくわかりません。キングとフリードマンの両方がデータを共有しないことについて不満を言っていることについて?
アンディW

@Andy、この手法は、経済学者が部分的に識別された分布(springer.com/statistics/statistical+theory+and+methods/book/…)として知っているものと同じですか?
StasK 2011

@アンディ、いいえ、あいまいさをお詫びします。私は実際にOPに話していました。彼が小さな領域に度数分布表を持っていて、小さな領域レベルで統計を取得したい場合、何が欠けていますか?あなたの投稿で示唆しているように、彼にはマージンだけが必要で、セルのコンテンツは必要ないのではないかと思います。
チャーリー

@StasK、わかりません。今週の終わりに、私が本にアクセスできるようになったときに、キングがマンスキーについて言及しているかどうかを確認します。生態学的推論が要約で言及されていることを考えると、いくつかの重複がある可能性があります。2つの間の関連を探る別の潜在的な(無料の)ソースは、「生態学的推論の新しい方法」で編集されたリーダーキング(全体が彼のウェブサイトに投稿されています
Andy W

2

Google検索で基本的に多変量小面積推定に関する3つの使用可能な参照が提供されていることを考えると、これに関する明確な回答が文献に存在するかどうかはわかりません。Pfeffermann(2002)は、論文のセクション4で離散応答変数について説明していますが、これらは一変量モデルになります。もちろん、階層ベイズ法(Rao 2003、Ch。10)を使用すると、あらゆる種類の不思議を行うことができますが、結局、自分の事前情報を複製するだけである場合(データが非常に少ないため)、これはひどいことになります。シミュレーション演習の結果。さらに、Raoは連続変数のみを扱います。

最大の課題は、共分散行列を小領域間および小領域内のコンポーネントに分解することだと思います。サンプルが1%の場合、SAEからの観測値は3つしかないため、コンポーネント内の安定した推定値を取得するのは難しい場合があります。

私があなたの立場にいるなら、小さな領域の多変量ランダム効果を使って、Pfeffermannモデルの多変量拡張を試してみます。デザインベースで何も機能しない場合は、このための階層ベイズモデルが実際に作成される可能性があります。

更新(この回答に対するアンディのコメントに対処するため):小面積推定のためのブートストラップ法(Lahiri 2003)は、特に研究からもっともらしい人口を再現します。ブートストラップ演習の焦点は、小領域の推定値の分散を推定することですが、手順は、投稿された問題に関心があり、関連性があるはずです。


私はグーグル検索に基づいて文学の状態を評価しません。小さな領域の見積もりが、この場合に著者が探しているものかどうかはよくわかりません。私が理解している限り、その文献は、小さな領域での特性の予測(Kriegler&Berk、2010年)、または集合単位あたりのサンプルのまばらな数に基づいたマルチレベルモデルのパラメーターの推定に焦点を当てています。
アンディW

小面積の見積もりが私がやりたいことかどうかはわかりません。私が理解しているように、小領域推定では、小領域のいくつかのサンプルから要約統計量を集計しようとします。私は反対を求めています(大地域の人口分布と小地域の集計要約統計からシミュレーションによる小地域の人口に移動するため)。Lahiri 2003は、ここから出発点として最適です。
fmark 2011
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.