医用画像処理では、公開されている作品のほとんどが偽陽性率(FPR)を削減しようとしていますが、実際には偽陰性は偽陽性よりも危険です。その背後にある理由は何ですか?
医用画像処理では、公開されている作品のほとんどが偽陽性率(FPR)を削減しようとしていますが、実際には偽陰性は偽陽性よりも危険です。その背後にある理由は何ですか?
回答:
TL; DR:病気はまれなので、偽陽性の絶対数は偽陰性の絶対数よりもはるかに多くなります。
システムのフォールスポジティブとフォールスネガティブの割合が同じ1%(かなり良い!)で、今年新しいがんの存在を検出していると仮定しましょう:439.2 / 100,000人、つまり人口の0.5%です。[ ソース ]
だから、私たちには問題があることがわかります。癌を患っているすべての人にとって、癌を患っていなかった2人が侵襲的な手術、化学療法、または放射線療法で終わります。
現在のがんを発見できなかったすべての人について、200人は必要のない積極的な有害治療を受けており、実際にお金をかける余裕はありません。
オオカミを叫んだ少年の話を知っていますよね?
それは同じ考えです。ある分類子が偽アラーム(オオカミの鳴き声)を何度も繰り返した後、医療スタッフはそれをオフにするか無視します。
「ああ、これまた!NOPE!」
少なくとも私が関わったバイオエンジニアリンググループでは、医師が潜在的な病理を警告するツールを作成することが目標であり、オオカミを叫ぶ製品を無視することを教えてくれるため、特にFPRの削減に重点が置かれています過度に。
農場でオオカミを見逃すことはオオカミの泣き声よりも悪いという正当な議論にもかかわらず、医師を助ける製品については、彼らの心理に訴えなければなりません。
編集:誤検知の減少にも正当な議論があります。お使いのコンピューターが時々オオカミを泣かせ続けている間、ときどき真の陽性を獲得している(そして真の陽性のほとんどを捕らえている)場合、それは事実上誰かが病気であるかもしれないと言っています。彼らは病院にいます。医師は、患者が病気である可能性があることを知っています。
要約:問題はおそらく、1つの偽陰性が1つの偽陽性よりも悪いかどうかではなく、1つの偽陰性に至るまでに500の偽陽性が受け入れられるかどうかに似ています。
*アプリケーションに依存
@Dragonの答えを少し拡大してみましょう。
スクリーニングとは、一見健康な集団の中から病気を探しているということです。@Dragonが説明したように、これらには非常に低いFPR(または高い感度)が必要です。そうでなければ、真陽性よりも多くの偽陽性になってしまいます。すなわち、陽性的中率(診断されたすべての陽性の中で本当に病気にかかっている)は容認できないほど低いでしょう。
感度(TPR)と特異度(TNR)は診断システムで簡単に測定できます。多くの真の(非)病気の症例を取り、正しく検出された症例の割合を測定します。
OTOHは、医師と患者の両方の観点から、予測的価値はもっと重要です。それらは、感度と特異性の「逆」であり、すべての正の(負の)予測の中で、どの部分が正しいかを示します。言い換えれば、テストが「病気」と言った後、患者が実際に病気にかかっている確率は何ですか。
@Dragonが示したように、ここで発生率(または、テストの内容に応じて発生率)が重要な役割を果たします。あらゆる種類のスクリーニング/早期がん診断アプリケーションでの発生率は低いです。
これを説明するために、閉経後女性の卵巣癌スクリーニングは、一般集団で0.04%、家族歴および/または腫瘍抑制遺伝子BRCA1および2の既知の突然変異を有する高リスク女性で0.5%である[Buchen、L.がん:マークがありません。Nature、2011、471、428-432]
したがって、問題は通常、1つの偽陰性が1つの偽陽性よりも悪いかどうかではなく、99%の特異性(1%FPR)と95%の感度(上記の論文から得られた数字)でさえ、各偽陰性についておよそ500個の偽陽性を意味します。
補足として、早期のがん診断自体はがんの魔法の治療法ではないことにも留意してください。例えば、乳がん検診マンモグラフィの場合、真の陽性患者の3〜13%のみが実際に検診の恩恵を受けています。
そのため、有益な各患者の偽陽性の数にも注意を払う必要があります。例えば、マンモグラフィの場合、これらの数値と一緒に、おおよその推定値として、真の陽性(39〜49歳のグループ)あたり400〜1800の範囲の偽陽性があります。
偽陰性ごとに数百の偽陽性(また、スクリーニングの恩恵を受ける患者ごとに数百または数千の偽陽性もある)では、状況は「1つの偽陽性がん診断よりもがんを見逃した方が悪い」ほど明確ではありません。心理的および心身的(がん自体が健康ではないことを心配する)から生検(小さな手術であり、それ自体が付属している)などのフォローアップ診断の身体的リスクに及ぶリスク)。1つの誤検出の
影響が小さい場合でも、数百の誤検出を考慮する必要がある場合、対応するリスクが大幅に増加する可能性があります。
推奨読書:Gerd Gigerenzer:Risk Savvy:How to Make Good Decisions(2014)。
それでも、診断テストを有用にするためにPPVとNPVが必要なのは、アプリケーションに大きく依存しています。
説明したように、早期がん検出のスクリーニングでは、通常、PPVに焦点が当てられます。つまり、偽陰性による過度の害を引き起こさないようにします。早期がん患者のかなりの割合(すべてではないにしても)を見つけることは、すでに改善されていますスクリーニングなしの現状。
OTOH、献血におけるHIV検査は、まずNPVに焦点を当てています(つまり、血液にHIVがないことを確認します)。それでも、2番目(および3番目)のステップでは、(偽の)HIV検査結果が陽性である人々を心配する前に、さらに検査を適用することにより、偽陽性を減らします。
最後に大事なことは、発生率や有病率が、特に危険性の低い集団のスクリーニングのように極端ではない医療検査への応用、例えばいくつかの鑑別診断もあります。
個人的な観点から、データサイエンスの経験ではなく、偽陽性は偽陰性よりも患者の生活の質に大きな影響を及ぼします(少なくとも医療画像処理のほとんどのアプリケーションでは。ここでのラボの結果については説明しません) 。
具体例を見てみましょう:腫瘍スクリーニング。
偽陰性とは、初期段階の腫瘍が成長して悪意のある癌になるまでの時間があることを意味しています。全体として、このプロセスには長い時間がかかり、その後の各スクリーニングではそれを検出する可能性が高くなりますが、現実的には患者の長期的な健康が損なわれます。
さらに、診断には常に人間が関与します。現在の技術段階での医用画像処理は、医療関係者の助けになることを意図しています。、代替はありません。多くの場合、人間が見落とすほど微妙な病変または組織の変化を指摘することを目的としています。医師が進行期の腫瘍を見落とす可能性はありません。そのための画像処理は必要ありません。
医学的処置に関しては、次のスクリーニングの前に腫瘍が手術不能にならない場合、初期の腫瘍を除去するか、少し成長する時間があった腫瘍に大きな違いはありません。除去される組織の量は多くなりますが、多くの場合、手術の種類は同じです。(これは、患者が定期的に健康診断を行うことを前提としています。)
誤検知には、すべてが病気に直接関連するわけではない多くの意味があります。
このリスクベネフィット評価は、偽陰性よりも偽陽性よりも患者のリスクが少ないことを示しています。したがって、一般的に誤検知を減らす優先度は高くなります。
臨床医の時間は貴重です
医学の分野から、臨床医は多くの場合、検出と診断を試みるために多種多様な病気にかかっており、これは時間のかかるプロセスです。偽陽性(低率であっても)を提示するツールは、その診断を信頼することができないため、あまり有用ではありません。つまり、診断を行うたびにチェックする必要があります。ソフトウェアのWebMDのように考えてください。すべてががんの兆候です。
臨床医は時間をかけて二重診断や診断の推測をする必要がないため、偽陰性を提示するが常に真陽性を提示するツールははるかに便利です。特定の診断で病気になっているとマークされた場合、仕事は完了です。そうでない場合、病気であると強調されていない人々は、とにかく追加のテストを受けます。
複数の特性をファッジする可能性のあるツールよりも、病気の特性を1つでも正確に識別できるツールを使用する方が適切です。
誤検知率(FPR)は、誤検知率(FAR)とも呼ばれます。偽陽性率が大きいと、医用画像検出システムのパフォーマンスが低下する可能性があります。偽陽性とは、陰性結果を受け取るべきであったときに、テストの陽性結果を受け取る場所です。たとえば、実際に妊娠していない場合、妊娠検査は陽性です。