John Snow Choleraの問題を解決するために使用できる統計モデルまたはアルゴリズムは何ですか?


23

John Snow Choleraのアウトブレイクのデータに基づいて、ある種の震源地の地理的近似を作成する方法を学ぶことに興味があります。井戸の位置を事前に知らなくても、このような問題を解決するためにどの統計モデリングを使用できますか。

一般的な問題として、時間、既知のポイントの位置、およびオブザーバーの歩行経路を利用できます。私が探している方法は、これら3つのことを使用して「発生」の震源地を推定します。


2
クリギングモデルは地理的予測に使用されます。それが出発点かもしれません。時間情報を含めるには、さらに一歩進んで時空間モデルを使用する必要があります(ただし、これらは使用していません)。
Great38

4
@Great Krigingはここに適用するのが難しいでしょう:極値を推定することを目的としておらず、関連する道路に沿った歩行時間の幾何学にも適しておらず、人口密度や建物の労働者の数。
whuber

このRパッケージはgithub.com/lindbrook/choleraに興味があるかもしれません。
デビッドC.ノリス

回答:


25

完全な回答や正式な回答を与えるのではなく、アイデアを刺激するために、10年前に教えていた空間統計コースでのラボ演習のために作成した簡単な分析について報告します。目的は、ユークリッド距離を使用した場合と比較して、可能性のある移動経路(徒歩)の正確な計算が、比較的単純な探索手法であるカーネル密度推定に与える影響を確認することでした。密度のピーク(単数または複数)は、ハンドルSnowが取り外されたポンプのどこに関連しますか?

Snowのマップ(適切にジオリファレンスされた)のかなり高解像度のラスター表現(2946行x 3160列)を使用して、マップに表示された数百の小さな黒いcoをそれぞれデジタル化し(309の住所で558を見つけます)、それぞれに割り当てます住所に対応する通りの端、および住所ごとに集計して各場所のカウントに追加します。

入力データのドットマップ

路地と路地を識別するためのいくつかの画像処理の後、それらのエリアに限定された単純なガウス拡散を実行しました(GISで繰り返し焦点を合わせる手段を使用)。これがKDEです。

結果はそれ自体を物語っています-それを説明するために伝説さえほとんど必要としません。(マップには他の多くのポンプが表示されていますが、それらはすべてこのビューの外側にあり、最も密度の高い領域に焦点を当てています。)

密度と色を示すSnowのマップ。


ワオ。要約すると、1.移動経路の線形化、2。1次元での平滑化の実行、3。2次元での平滑化の拡張、4。経路トリップ全体のkdeの平均化?
サイロンデュー

1
平滑化は2Dで実行されましたが、色で示された領域に制限されていました。あなたの説明に似た他の方法もあります。ただし、「パストリップ」を平均する必要はありません(それらが何であれ)。このマップは、1次元と2次元の両方のジオメトリのプロパティを共有しているため、一部興味深いものです。
whuber

道路上の各ポイントAについて、住所の場所の間でポイントB同士のステップ数をカウントします。そのステップ数をガウス密度に差し込み、その値にBでの死亡数を掛けます。これらのすべての製品を加算して(つまり、すべてのアドレスポイントBで)、ポイントAでカーネル密度を取得します。路上で。これが、マップ上の各ポイントで見られる密度です。はい?
ハトシェプスト

2
B

2
@Hatガウスが道路や歩道に拘束されている場合、単位積分を持つことはありません!これにより切り捨てられ、再正規化する必要があります。
whuber

19

[1、§3.2]で、David Freedmanはあなたの質問に対する本質的に否定答えを提案しています。つまり、(単なる)統計モデルやアルゴリズムはJohn Snowの問題を解決できませんでした。雪の問題は、現行のに対して、コレラは水を媒介とする感染症であることを彼の理論を支える重要な引数開発することでした瘴気彼の日のを。(「統計モデルと靴革」というタイトルの[1]の第3章も、以前に公開された形式[2] 利用可能です。)

フリードマンは、これらの短いページ[1、pp.47–53](その多くはジョン・スノー自身の拡張引用)で、「スノーが1853–54に実際にしたことは[ブロードのof話よりもさらに興味深いストリートポンプ]。」統計的証拠をマーシャリングする限り(インデックスケースの識別などの他の予備事項については他にも議論されています)、Snow は自然の変化利用して真に顕著な準実験を行いました。

以前は、ロンドンの水道会社の間で激しい競争があり、その結果、「雪の言葉で言えば」「最も親密な」水道が空間的に混ざり合っていました。

各会社のパイプはすべての道を下り、ほぼすべての裁判所と路地に入ります。水道会社が活発に競争していた当時の所有者または占有者の決定に応じて、いくつかの家が一方の会社によって供給され、いくつかの家が他方によって供給されます。

...

2つの水道会社の供給を受けている家や人々、または周囲の物理的条件に違いはないため、より徹底的にテストする実験を考案できなかったことは明らかです。これよりもコレラの進行に対する水の供給の影響、オブザーバーの前に準備された状況。

—ジョン・スノー

この準実験でジョン・スノーが活用した「自然変動」のもう1つの非常に重要なビットは、ある水道会社が下水排出の下流のテムズ川で取水口を持っているのに対して、他の水道会社は取水口を上流に移動する数年前でした。John Snowのデータテーブルからどちらがどれであったかを推測させてください!

                     | の数| コレラ| 死亡数
会社| 住宅| 死| 10,000戸
-------------------------------------------------- --------
サザーク&ボクスホール| 40,046 | 1263 | 315
ランベス| 26,107 | 98 | 37
ロンドンの残り| 256,423 | 1422 | 59

フリードマンがしおれたように、

統計技術の一部として、[上記の表]は決して注目に値するものではありません。しかし、それが伝える物語は非常に説得力があります。議論の力は、事前の推論の明快さ、多くの異なる証拠のラインをまとめること、スノーがデータを取得するために喜んで使用した靴革の量に起因します。[1、p.51]

Snowによって活用された自然変動のもう1つのポイントは時間ディメンションで発生しました。2つの流行の間で上記の取水場所の移動が発生し、Snowは同じ会社の水を追加の下水ありとなしで比較できました。([1]の著者であるPhilip B. Starkに、Twitterでこの情報を提供してくれたことに感謝します。彼のオンラインレクチャーをご覧ください。)


この問題はまた、この答えで議論されるように、控除主義誘導主義の対比の有益な研究を提供します

  1. フリードマンD、コリアーD、セコンJS、スタークPB。統計モデルと因果推論:社会科学との対話。ケンブリッジ ニューヨーク:ケンブリッジ大学出版局; 2010年。

  2. フリードマンDA。統計モデルと靴革。社会学的方法論。1991; 21:291-313。doi:10.2307 / 270939。全文


1
+1震源を特定するだけでは、「ジョンスノーの問題」を解決するには不十分だと指摘したため。Miasma理論は、当時Davidが指摘したように、そのような一般的な理論の1つでした。混asの理論を偽造するには、川の近くで地理的レートが上昇しないことを示す必要があります。この問題に対する最新のアプローチでは、クリギングを利用した可能性があります。
AdamO

ありがとう、@ AdamO; 私はどのようだろクリギングはほとんどの侮辱と思われる、この場合の「親密な」空間的混合、収容なる連続適用のために必要な補間(例えばIはクリギングを理解するようにする)技術を。
デビッドC.ノリス

多分私はスノーの言葉を誤解した:私の推定は、「水ポンプの供給源の密接な混合」は、川からの距離によって層化された都市ブロックの各同心円層が少なくとも数サプライヤーA、B、Cのポンプ...これは、汚染された水がコレラを引き起こすという理論を支持することに関係しています。クリギングは、川への近接性がコレラ発生率の増加と関連していないことを示すことにより、mi気仮説を拒否します。これは、ポンプに水をまく人々によってサポートされています。miasmaはパイプで移動しません。
AdamO

2
@AdamO実際、ウィリアムファーはコレラの死亡率を調べ(1849年から)、それらをテムズ川の上の標高と比較しました。これらの変数間の対応は驚くべきものであり、ニアスマ理論からの予測とほぼ完全に一致しています。Langmuir ADを参照してください。Bacteriological Review 25、174、1961bmj.com/content/323​​/7327/1469.full#B4)。この記事では、1858年にスノー博士が亡くなったときでさえ、彼の理論は「公式のサークルでは受け入れられなかった」と述べています。
whuber

1
これらの参照に感謝します、@ whuber。キュレーションとして、Langmuirの記事はオープンアクセスであることに注意してください
デビッドC.ノリス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.