次の形式のデータセットがあります。
二元的転帰がん/がんなしがあります。データセット内のすべての医師は、すべての患者を診察し、患者ががんであるかどうかについて独立した判断を下しています。医師は、自分の診断が正しいことを5のうちの信頼レベルで示し、括弧内に信頼レベルが表示されます。
このデータセットから適切な予測を取得するために、さまざまな方法を試しました。
医師の信頼水準を無視して、医師全体の平均をとることは、私にとってはかなりうまくいきます。上の表では、患者1と患者2に対して正しい診断が得られますが、患者3が癌であると誤って言っているはずです。
2人の医師を無作為に抽出する方法も試しました。2人の医師が互いに同意しない場合は、どちらがより自信がある医師に決定票が投じられます。この方法は、多くの医師に相談する必要がないという点で経済的ですが、エラー率もかなり高くなります。
私は2人の医師をランダムに選択する関連する方法を試しました。彼らが互いに同意しない場合は、さらに2人の医師をランダムに選択します。1つの診断が少なくとも2つの「投票」で進んでいる場合、その診断を支持して解決します。そうでない場合は、より多くの医師をサンプリングし続けます。この方法はかなり経済的で、あまりミスをしません。
もっと洗練されたやり方が足りないと感じて仕方がありません。たとえば、データセットをトレーニングセットとテストセットに分割し、診断を組み合わせるための最適な方法を考え出して、それらの重みがテストセットでどのように機能するかを確認できる方法があるかどうか疑問に思います。1つの可能性は、試験セットで間違いを犯し続けた医師の体重を減らし、おそらく自信を持って行われた診断の体重を増やすことのできるある種の方法です(信頼度はこのデータセットの正確さと相関します)。
私はこの一般的な説明に一致するさまざまなデータセットを持っているので、サンプルサイズは異なり、すべてのデータセットが医師/患者に関連しているわけではありません。ただし、この特定のデータセットには40人の医師がおり、それぞれ108人の患者を診察しています。
編集:これは、 @ jeremy-milesの回答を読んで得られた重みの一部へのリンクです。
重み付けされていない結果は最初の列にあります。実際、このデータセットでは、最大の信頼値は4でした。これは先ほど間違って言った5ではありません。したがって、@ jeremy-milesのアプローチに従うと、どの患者も加重されていない最も高いスコアは7になります。つまり、文字通りすべての医師が、その患者ががんであるという信頼レベル4を主張しました。患者が得ることができる最低の加重されていないスコアは0です。これは、すべての医師がその患者に癌がなかったことを信頼レベル4で主張したことを意味します。
合計アイテム相関による重み付け。すべてのアイテムの相関関係をすべて計算し、相関関係のサイズに比例して各医師に重みを付けます。
回帰係数による重み付け。
私がまだ確信が持てないことの1つは、どの方法が他の方法よりも「優れている」かを言う方法です。以前は、パーススキルスコアなどの計算を行っていました。これは、バイナリ予測とバイナリ結果があるインスタンスに適しています。しかし、今では0から1ではなく0から7の範囲の予測があります。すべての加重スコア> 3.50から1、およびすべての加重スコア<3.50から0に変換する必要がありますか?
Cancer (4)
最大自信を持っていない癌の予測にNo Cancer (4)
。我々はそれを言うことができないNo Cancer (3)
とCancer (2)
同じですが、私たちはそこに連続であり、この連続体の中間点であると言うことができるCancer (1)
とNo Cancer (1)
。
No Cancer (3)
はCancer (2)
そうですか?それはあなたの問題を少し簡単にするでしょう。