可視化から推論のワークフロー


9

公衆衛生部門に統計サポートを提供しています。ご想像のとおり、定期的に多くの地図を作成しています。私にとって、マップは単なるデータの視覚化の一種であり、データの感覚をつかんだり、仮説を生成および確認したりするのに役立ちます。しかし、実際のモデリングや仮説テストについてはあまり説明しません。

あなた/あなたの組織はこれをどのように行っていますか?推論を含むワークフローはどのようなものですか?誰が関与していますか?どのツールを使用していますか?もしあなたがあなたのやり方を持っていたら、それはどのように理想的に見えますか?

ありがとう!

編集

明確にするために、私は空間データから世界で何が起こっているかについての仮説の正式な統計的検定に進むためのさまざまな戦略に興味があります。たとえば、結核検査を増やすための教育キャンペーンをターゲットにしようとしているとしましょう。私は(個人的に)関心のある共変量(たとえば、収入の中央値または外国生まれの居住者の割合)に対する結核の症例をマッピングし、何らかのパターンがあるかどうかを確認しようとします。

私は何も見つけないかもしれません。しかし、最終的には、それらの共変量と人口統計の数の間の関連を推定するモデルを構築します。これは、存在しないパターンを見つける、または興味のないパターンを見つけるのに優れた人間がいるため、重要なステップです。私は自分でこれを行う方法を知っていますが、さまざまな組織がそれを制度化する方法(あるとしても)に興味があります。


すばらしい質問です。
whuber

ワクチンの供給が限られている病気が発生した場合に、ワクチンを最適に配布していることを示すことができるように、ワークフローが必要だと言っていますか?
カークカイ

大まかに言って、私は人々が統計的推論をマッピングプロセスにどのように組み込むかに興味があります。あなたが説明するのは確かに1つの可能なシナリオですが、他にもたくさんあり、疫学からの反応に特に興味はありません。
Matt Parker

回答:


2

非常に興味深い質問です。

まず、あなたの質問は私が「データマイニング」と呼んでいるものを暗示しており、統計的に有効なデータセット(空間的である必要はありません)を使用するデータセット(空間的である必要はありません)関係慣習では、95%以上の確率でなければならない。ただし、20のテストを実行する場合、得られる「統計的に有効な」結果の少なくとも1つが純粋なチャンスによる可能性が高くなります。したがって、変数間の可能な関係を視覚化し、興味深いものを見つけて統計を接続し、これが唯一のテストであるかのように結果を引用するために、データセット(GISではそれをマッピングします)をいじるのは悪い習慣ですやった。結果は引き続き使用できますが、実行したテストの数を考慮する必要があります。

それはあなたが運転していたものですか?

あなたの質問は、人々がこの問題を回避することをどのように形式化するかを尋ねるように見えます。私の答えは、あなたが言及する「まったくない」オプションは一般的であるということです。私の経験では、医療統計学者(私のガールフレンドなど)は、この種のプロセスに他の領域で見られるよりもはるかに高い基準の厳密さを適用しています。プロセスを適切に理解せずに統計式が盲目的に適用される問題。地質学的な例が思い浮かびます:

私は、査読済みの論文を読んで、著者らは、アフリカの地質学的および空間的影響に関連して、ボーリング孔の収量(ポンプで汲み上げられる水の量)を調べました。アイデアは、ボアホールの最適な場所をターゲットにできるように、ボアホールの掘削を支援することでした。著者はあらゆる種類の変数を組み合わせてデータを露骨にマイニングし、どの変数が95%の信頼水準をもたらしたかを確認しました。(私は推測します)どのレビューアも結果の妥当性に疑問を呈していませんでした。したがって、彼らの結論は完全に信頼できないものでした。

それが興味深いことを願っています


あなたが説明する論文が信頼できない理由をもう少し説明できますか?なぜこれが当てはまるのか私には明らかではありません。関係が統計的に存在する場合、それを特定するためにどの「メンタルモデル」を使用したかは重要ですか?メカニズムは説明されていませんが、それは別の問題です。
djq
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.