まず、38年前に工学部で統計学のコースを1つ受けていたとしましょう。だから私はここで盲目的に飛んでいます。
疾患の診断テストは基本的に18種類ありますが、その結果はわかりました。各テストはバイナリです-はい/いいえ、テストを「調整」するために調整できるしきい値はありません。各テストについて、「ゴールドスタンダード」と比較した場合の真/偽陽性/陰性の表向きは有効なデータがあり、特異性と感度の数値(およびそのデータから導出できる他のすべて)が得られます。
もちろん、単独で使用するのに十分な特異性/感度を持つ単一のテストはありません。また、すべてのテストの結果を「目玉」にした場合、多くの場合、明らかな傾向はありません。
これらの数値を組み合わせて、(できれば)単一のテストよりも信頼性の高い最終スコアが得られるようにするための最良の方法は何でしょうか。これまでのところ、TRUEテストの特異性を組み合わせて
spec_combined = 1 - (1 - spec_1) * (1 - spec_2) * ... (1 - spec_N)
FALSEの感度を組み合わせると、同じ方法でテストされます。比率
(1 - sens_combined) / (1 - spec_combined)
次に、10を超える値は信頼できるTRUEであり、0.1未満の値は信頼できるFALSEであり、かなり良い「最終スコア」をもたらすようです。
しかし、このスキームは真の厳密さを欠いており、テスト結果のいくつかの組み合わせでは、直感に反する答えを生成するようです。
特異性と感度を考慮して、複数のテストのテスト結果を組み合わせるより良い方法はありますか?(一部のテストの特異度は85、感度は15です。他のテストはその逆です。)
OK、頭が痛い!
感度/特異度(%)のテスト1〜4があるとします。
- 65/50
- 25/70
- 30/60
- 85/35
テスト1と2は陽性、3と4は陰性です。
1が偽陽性であると推定される確率は(1-0.5)であり、2は(1-0.7)であるため、両方が偽陽性である確率は0.5 x 0.3 = 0.15です。
3および4が偽陰性であると推定される確率は、(1-0.3)および(1-0.85)または0.7 x 0.15 = 0.105です。
(現時点では、数値が合計されないという事実は無視します。)
ただし、1と2が真陽性であると推定される確率は0.65と0.25 = 0.1625ですが、3と4が真陰性であると推定される確率は0.6と0.35 = 0.21です。
これで、2つの質問をすることができます。
- どうして数字が合わないのか(あるいは近づいてしまうのか)。(私が使用したsens / spec番号は「実生活」からのものです。)
- どの仮説が(ほとんどの場合)真であるかを判断するにはどうすればよいですか(この例では、両方の計算で「負」であるように見えますが、常にそうであるかどうかはわかりません)。 「結果が「重要」であるかどうかを判断するには?
より詳しい情報
これは、本質的に完全に「芸術的」である(つまり、誰かのa **から引き抜かれた)既存の「重み付け」スキームを改良および拡張する試みです。現在のスキームは基本的に、「最初の3つのうち2つが正で、次の4つのうち2つが次の2つのうちのいずれかである場合、正であると仮定します」のようになっています。(もちろん、これはやや簡略化された例です。)利用可能な統計は、その重み付けスキームをサポートしていません。測定された統計に基づく粗い重み付けアルゴリズムを使用しても、かなり異なる答えが出ます。しかし、統計を評価する厳密な方法がなければ、私は信用できません。
また、現在のスキームはポジティブ/ネガティブを決定するだけであり、(統計的に有効な)「あいまいな」ケースを途中で作成する必要があるため、ある程度の性能指数が必要です。
最新
私は多かれ少なかれ「純粋な」ベイズ推定アルゴリズムを実装しました。そして、いくつかの側面の問題を何度も繰り返した後、それはかなりうまく機能しているようです。特異性と感度から作業するのではなく、式の入力を真陽性/偽陽性の数値から直接導き出します。残念ながら、これは、これらの数値を抽出できるように提示されていない、より良い品質のデータの一部を使用できないことを意味しますが、アルゴリズムははるかにクリーンで、手計算を大幅に減らして入力を変更できます。そしてそれはかなり安定しているように見え、結果は「直感」とかなりよく一致します。
また、相互に依存する観測間の相互作用を処理するための(純粋にプログラミングの意味での)「アルゴリズム」も考案しました。基本的に、掃引式を探すのではなく、単純なテーブルに基づいて、以前の観測が処理されるときに変更される限界確率乗数を観測ごとに保持します-「観測Aがtrueの場合、観測Bの限界確率を1.2の係数、例えば。エレガントではありませんが、実用的であり、さまざまな入力にわたってかなり安定しているようです。
(私は数時間で私が最も役立つ投稿であると思うものに賞金を授与するので、誰かがいくつかのリックを取得したい場合は、それを手に入れてください。)