私は現在、いくつかの研究室や薬局の請求を含む健康保険請求データの大規模なセットで作業しています。ただし、データセットで最も一貫性のある情報は、診断(ICD-9CM)と手順コード(CPT、HCSPCS、ICD-9CM)で構成されています。
私の目標は次のとおりです。
- 慢性腎臓病などの医学的状態に最も影響を与える前駆症状(併存疾患)を特定します。
- 患者が過去に持っていた状態に基づいて病状を発症する可能性(または確率)を特定します。
- 1および2と同じですが、手順または診断、あるいはその両方を行います。
- できれば、結果は医師によって解釈可能である
Heritage Health Prize Milestoneの論文のようなものを見て、そこから多くのことを学びましたが、彼らは入院の予測に焦点を合わせています。
だからここに私の質問があります:このような問題に対してどの方法がうまく機能すると思いますか?また、ヘルスケアと臨床医学に関連するデータサイエンスアプリケーションと方法について学習するには、どのリソースが最も役立ちますか?
EDIT#2でプレーンテキストテーブルを追加します。
CKDは標的疾患であり、「慢性腎臓病」、「。any」はいつでもその状態を獲得したことを示し、「。isbefore.ckd」はCKDの最初の診断前にその状態にあったことを示します。他の略語は、ICD-9CMコードグループによって識別される他の条件に対応しています。このグループ化は、インポートプロセス中にSQLで発生します。patient_ageを除く各変数はバイナリです。