John Snow Choleraのアウトブレイクのデータに基づいて、ある種の震源地の地理的近似を作成する方法を学ぶことに興味があります。井戸の位置を事前に知らなくても、このような問題を解決するためにどの統計モデリングを使用できますか。
一般的な問題として、時間、既知のポイントの位置、およびオブザーバーの歩行経路を利用できます。私が探している方法は、これら3つのことを使用して「発生」の震源地を推定します。
John Snow Choleraのアウトブレイクのデータに基づいて、ある種の震源地の地理的近似を作成する方法を学ぶことに興味があります。井戸の位置を事前に知らなくても、このような問題を解決するためにどの統計モデリングを使用できますか。
一般的な問題として、時間、既知のポイントの位置、およびオブザーバーの歩行経路を利用できます。私が探している方法は、これら3つのことを使用して「発生」の震源地を推定します。
回答:
完全な回答や正式な回答を与えるのではなく、アイデアを刺激するために、10年前に教えていた空間統計コースでのラボ演習のために作成した簡単な分析について報告します。目的は、ユークリッド距離を使用した場合と比較して、可能性のある移動経路(徒歩)の正確な計算が、比較的単純な探索手法であるカーネル密度推定に与える影響を確認することでした。密度のピーク(単数または複数)は、ハンドルSnowが取り外されたポンプのどこに関連しますか?
Snowのマップ(適切にジオリファレンスされた)のかなり高解像度のラスター表現(2946行x 3160列)を使用して、マップに表示された数百の小さな黒いcoをそれぞれデジタル化し(309の住所で558を見つけます)、それぞれに割り当てます住所に対応する通りの端、および住所ごとに集計して各場所のカウントに追加します。
路地と路地を識別するためのいくつかの画像処理の後、それらのエリアに限定された単純なガウス拡散を実行しました(GISで繰り返し焦点を合わせる手段を使用)。これがKDEです。
結果はそれ自体を物語っています-それを説明するために伝説さえほとんど必要としません。(マップには他の多くのポンプが表示されていますが、それらはすべてこのビューの外側にあり、最も密度の高い領域に焦点を当てています。)
[1、§3.2]で、David Freedmanはあなたの質問に対する本質的に否定的な答えを提案しています。つまり、(単なる)統計モデルやアルゴリズムはJohn Snowの問題を解決できませんでした。雪の問題は、現行のに対して、コレラは水を媒介とする感染症であることを彼の理論を支える重要な引数開発することでした瘴気彼の日のを。(「統計モデルと靴革」というタイトルの[1]の第3章も、以前に公開された形式[2] で利用可能です。)
フリードマンは、これらの短いページ[1、pp.47–53](その多くはジョン・スノー自身の拡張引用)で、「スノーが1853–54に実際にしたことは[ブロードのof話よりもさらに興味深いストリートポンプ]。」統計的証拠をマーシャリングする限り(インデックスケースの識別などの他の予備的事項については他にも議論されています)、Snow は自然の変化を利用して真に顕著な準実験を行いました。
以前は、ロンドンの水道会社の間で激しい競争があり、その結果、「雪の言葉で言えば」「最も親密な」水道が空間的に混ざり合っていました。
各会社のパイプはすべての道を下り、ほぼすべての裁判所と路地に入ります。水道会社が活発に競争していた当時の所有者または占有者の決定に応じて、いくつかの家が一方の会社によって供給され、いくつかの家が他方によって供給されます。
...
2つの水道会社の供給を受けている家や人々、または周囲の物理的条件に違いはないため、より徹底的にテストする実験を考案できなかったことは明らかです。これよりもコレラの進行に対する水の供給の影響、オブザーバーの前に準備された状況。
—ジョン・スノー
この準実験でジョン・スノーが活用した「自然変動」のもう1つの非常に重要なビットは、ある水道会社が下水排出の下流のテムズ川で取水口を持っているのに対して、他の水道会社は取水口を上流に移動する数年前でした。John Snowのデータテーブルからどちらがどれであったかを推測させてください!
| の数| コレラ| 死亡数 会社| 住宅| 死| 10,000戸 -------------------------------------------------- -------- サザーク&ボクスホール| 40,046 | 1263 | 315 ランベス| 26,107 | 98 | 37 ロンドンの残り| 256,423 | 1422 | 59
フリードマンがしおれたように、
統計技術の一部として、[上記の表]は決して注目に値するものではありません。しかし、それが伝える物語は非常に説得力があります。議論の力は、事前の推論の明快さ、多くの異なる証拠のラインをまとめること、スノーがデータを取得するために喜んで使用した靴革の量に起因します。[1、p.51]
Snowによって活用された自然変動のもう1つのポイントは時間ディメンションで発生しました。2つの流行の間で上記の取水場所の移動が発生し、Snowは同じ会社の水を追加の下水ありとなしで比較できました。([1]の著者であるPhilip B. Starkに、Twitterでこの情報を提供してくれたことに感謝します。彼のオンラインレクチャーをご覧ください。)
この問題はまた、この答えで議論されるように、控除主義と誘導主義の対比の有益な研究を提供します。
フリードマンD、コリアーD、セコンJS、スタークPB。統計モデルと因果推論:社会科学との対話。ケンブリッジ ニューヨーク:ケンブリッジ大学出版局; 2010年。
フリードマンDA。統計モデルと靴革。社会学的方法論。1991; 21:291-313。doi:10.2307 / 270939。全文