請求データの過去の状態から次の病状を予測する


12

私は現在、いくつかの研究室や薬局の請求を含む健康保険請求データの大規模なセットで作業しています。ただし、データセットで最も一貫性のある情報は、診断(ICD-9CM)と手順コード(CPT、HCSPCS、ICD-9CM)で構成されています。

私の目標は次のとおりです。

  1. 慢性腎臓病などの医学的状態に最も影響を与える前駆症状(併存疾患)を特定します。
  2. 患者が過去に持っていた状態に基づいて病状を発症する可能性(または確率)を特定します。
  3. 1および2と同じですが、手順または診断、あるいはその両方を行います。
  4. できれば、結果は医師によって解釈可能である

Heritage Health Prize Milestoneの論文のようなものを見て、そこから多くのことを学びましたが、彼らは入院の予測に焦点を合わせています。

だからここに私の質問があります:このような問題に対してどの方法がうまく機能すると思いますか?また、ヘルスケアと臨床医学に関連するデータサイエンスアプリケーションと方法について学習するには、どのリソースが最も役立ちますか?

EDIT#2でプレーンテキストテーブルを追加します。

CKDは標的疾患であり、「慢性腎臓病」、「。any」はいつでもその状態を獲得したことを示し、「。isbefore.ckd」はCKDの最初の診断前にその状態にあったことを示します。他の略語は、ICD-9CMコードグループによって識別される他の条件に対応しています。このグループ化は、インポートプロセス中にSQLで発生します。patient_ageを除く各変数はバイナリです。


1
いくつかのサンプルデータを提供できますか(簡単な英語、コードなし)?
ffriend

元の投稿にいくつかのサンプルデータを追加しました。このバージョンでは、各条件は3文字のコードで示されます。
ジェイミー14

1
Rはクールですが、人間が読めるほどではありません。データのサンプルをテーブルとして再フォーマットしてください(CSV形式またはTSV形式を使用します。5〜6列は問題ありません)。また、変数の説明(「anx.any」、「flu.isbefore.ckd」などが実際に何を意味し、何を予測するか)が非常に役立ちます。
ffriend 14

1
データセットで使用されているパラメータに関する詳細情報を提供していただければ、相関関係があるかどうかを理解できます。あなたが言及した略語のいくつかは、私には明らかではありません。メールIDを共有して、オフラインで共同編集できるといいですね。ありがとう!
JohnGalt

1
これはほんの少し関連していますが、最近のデータサイエンスの課題は、他のクレームからクレームを予測することに関するものでした。cloudera.com/content/cloudera/en/training/certification/ccp-ds/… ソリューションのリリース時には、いくつかの興味深いアイデアが含まれている場合があります。
ショーンオーウェン

回答:


7

私は医療データを扱ったことは一度もありませんが、一般的な理由から、医療における変数間の関係はかなり複雑だと思います。ランダムフォレスト、回帰などの異なるモデルは、関係の一部のみをキャプチャし、他のモデルを無視できます。そのような状況では、一般統計調査モデリングを使用するのは理にかなっています。

たとえば、私が最初に行うことは、起こり得る前駆症状と診断との相関関係を見つけることです。たとえば、慢性腎疾患の前に長いインフルエンザが発生したケースは何パーセントですか?それが高い場合、それは常に因果関係を意味するわけはありませんが、思考のためのかなり良い食べ物を提供し、異なる条件間の関係をよりよく理解するのに役立ちます。

もう1つの重要なステップは、データの視覚化です。CKDは女性よりも男性で頻繁に起こりますか?彼らの居住地はどうですか?年齢別のCKD症例の分布とは何ですか?大きなデータセットを一連の数値として把握するのは困難です。それらをプロットすると、はるかに簡単になります。

何が起こっているのかがわかったら、仮説検定を実行して仮定を確認します。帰無仮説(基本的な仮定)を拒否して、別の仮説を受け入れた場合、おめでとうございます。あなたは「何か現実のもの」を作りました。

最後に、データをよく理解したら、完全なモデルを作成してみてください。PGM(手動で作成されたベイジアンネットワークなど)のような一般的なもの、または線形回帰やSVMなどのより具体的なものなどです。しかし、いずれにしても、このモデルがデータにどのように対応し、その効率をどのように測定できるかはすでに知っています。


統計的アプローチを学習するための優れた開始リソースとして、Sebastian Thrun によるIntro to Statisticsコースをお勧めします。非常に基本的で高度なトピックは含まれていませんが、最も重要な概念を説明し、確率論と統計の体系的な理解を提供します。


これをありがとう!これは、私がすでに行ったいくつかのステップ(探索的分析、仮説検定など)を確認します。
ジェイミー14

7

私はデータサイエンティストではありませんが、臨床現場で働く疫学者です。あなたの研究の質問は期間を特定しませんでした(すなわち、1年、10年、寿命でCKDを発症する確率?)。

一般に、モデリング(単変量解析、二変量解析、共線性チェックなど)について考える前に、いくつかの手順を実行します。ただし、バイナリイベントを予測するために(連続ORバイナリ変数を使用して)最も一般的に使用される方法は、ロジスティック回帰です。CKDをラボ値(尿アルブミン、eGFR)として見たい場合は、線形回帰(連続的な結果)を使用します。

使用する方法はデータと質問によって通知される必要がありますが、臨床医はオッズ比とリスク比をNEJMやJAMAなどの医学雑誌で最も一般的に報告されている関連尺度として見ることに慣れています。

(ビジネスインテリジェンスではなく)人間の健康の観点からこの問題に取り組んでいる場合、このSteyerbergの 臨床予測モデルは優れたリソースです。


1
役に立つ提案をありがとう。私は間違いなくその本をチェックします!ラボの値にはアクセスできますが、データは信頼性が低く散発的であるため、クレームから取得できるデータに固執しようとしています。変数の略語は、実際には診断コードのAHRQ臨床分類ソフトウェアのグループ化です。
ジェイミー14

3

「慢性腎臓病などの医学的状態の最も影響力のある前駆症状(併存疾患)を特定する」

私は確かにそれがIDに可能だということはないよ最も影響力の条件。使用しているモデルによって異なると思います。ちょうど昨日、ランダムフォレストとブーストされた回帰ツリーを同じデータに当てはめ、各モデルが変数に与える順序と相対的な重要性はまったく異なっていました。


ありがとう、アンディ。少し詳しく説明してもらえますか?変数が十分な詳細をキャプチャしていないためですか?
ジェイミー14

何も思いつきません。異なるモデルがどのように機能するかにかかっていると思います。
JenSCDC 14

試したり検討したりした解決策をいくつか提案していただけますか?
ジェイミー14

これまでのところ、私もやったことがないので、助けはありません。ごめんなさい。
JenSCDC 14

私は今、数週間休暇を取っていますが、戻ってきたら、興味をそそられたので調べます。
JenSCDC 14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.