ゲイリーキングの作品、特に彼の著書「生態学的推論問題への解決策」(最初の2つの章はここで利用可能です)は興味深いものです(彼が生態学的推論に使用する付属のソフトウェアも同様です)。キングは本で、利用可能な集計データに基づいて下位グループが持つ可能性のある境界を調べることによって、集計データを使用した回帰モデルの推定をどのように改善できるかを示しています。データが主にカテゴリカルグループであるという事実により、この手法が適用されます。(だまされてはいけませんが、タイトルが与えられれば期待できるほどのオムニバスソリューションではありません!)より新しい作品が存在しますが、キングの本はIMOから始めるのに最適です。
別の可能性は、データ自体の潜在的な境界を(マップまたはグラフで)表すことだけです。たとえば、性別の分布を集計レベル(男性5,000、女性5,000など)で報告すると、この集計レベルには、人口9,000と1,000の2つの異なる小面積単位が含まれることがわかります。次に、これをフォームの分割表として表すことができます。
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
下位レベルの集計のセルには情報がありませんが、限界合計から、各セルの潜在的な最小値または最大値を作成できます。したがって、この例では、Men X Unit1
セルは4,000から5,000の間の値しか取ることができません(セルが取る可能性のある値の間隔が小さいほど、周辺分布はより不均一になります)。どうやらテーブルの境界を取得することは、予想していたよりも困難です(Dobra&Fienberg、2000)。ただしeiPack
、R のライブラリで関数を使用できるようです(Lau et al。、2007、p。43)。
このタイプのデータでは集約バイアスが必然的に発生するため、集約レベルのデータを使用した多変量解析は困難です。(簡単に言えば、多くの異なる個々のレベルのデータ生成プロセスが集約レベルの関連付けをもたらす可能性があるため、集約バイアスについて説明します)American Sociological Reviewの一連の記事 1970年代には、トピックに関する私のお気に入りの参考文献の一部があります(Firebaugh、1978; Hammond、1973; Hannan&Burstein、1974)。ただし、このトピックに関する正規の出典は(Fotheringham&Wong、1991; Oppenshaw、1984; Robinson、1950) 。多変量解析を実行するための集計データの制限に本当に悩まされていますが、データが取る可能性がある潜在的な境界を表すことは、潜在的に刺激を与える可能性があると思います。それは社会科学においてだれでもそれをすることを止めません(より良いまたはより悪い!)
(チャーリーがコメントで述べたように)キングの「解決策」はかなりの批判を受けた(Anselin&Cho、2002; Freedman et al。、1998)ことに注意してください。これらの批評はキングの方法の数学については完全に言っているわけではありませんが、キングの方法が依然として集計バイアスを考慮に入れられない状況に関してはなおさらです(そして、私はフリードマンとアンセリンの両方に同意する社会科学は依然として疑わしいですが、キングの仮定を満たすものよりもはるかに一般的です)。これは、境界を調査することをお勧めする理由の一部です(それで問題はありません)が、そのようなデータから個々のレベルの相関について推論を行うと、ほとんどの状況で最終的に正当化されない信仰の飛躍がはるかに多くなります。
引用