私は、約10,000個のオブジェクトの適度に大きなトレーニングセットでオブジェクトType A
とType B
オブジェクトを区別する分類子をトレーニングしようType A
としていますType B
。データセットは、セルの物理的特性(サイズ、平均半径など)を詳述する100個の連続したフィーチャで構成されています。ペアワイズ散布図と密度プロットでデータを視覚化すると、多くの特徴で癌細胞と正常細胞の分布にかなりの重複があることがわかります。
現在、このデータセットの分類方法としてランダムフォレストを調査しており、いくつかの良い結果が得られています。Rを使用すると、ランダムフォレストはオブジェクトの約90%を正しく分類できます。
試してみたいことの1つは、オブジェクトの分類に対する自信の程度を定量化する一種の「確実性スコア」を作成することです。私たちは、分類器が100%正確になることはありませんことを知っている、との予測では、高い精度が達成された場合でも、私たちは訓練を受けた技術が真にであるオブジェクトを識別することになるでしょうType A
とType B
。そのため、Type A
またはの妥協のない予測を提供する代わりにType B
、各オブジェクトの方法A
またはB
オブジェクトがどのようであるかを説明するスコアを提示したいと思います。たとえば、0〜10の範囲のスコアを考案した場合、スコア0はオブジェクトがオブジェクトに非常に似ていることを示し、スコア10はオブジェクトが非常に似ているType A
ことを示しますType B
。
ランダムフォレスト内の投票を使用して、このようなスコアを考案できると考えていました。ランダムフォレストの分類は、生成されたツリーのフォレスト内の多数決によって行われるため、ツリーの100%によって投票さType A
れたオブジェクトは、たとえばツリーの51%によって投票されたオブジェクトとは異なると想定しますであるType A
。
現在、オブジェクトをType A
またはType B
に分類するために受け取る必要がある投票の割合に任意のしきい値を設定しようとしましたが、しきい値を超えていない場合はに分類されUncertain
ます。たとえば、80%以上のツリーが分類の合格に同意する必要があるという条件を強制すると、クラス予測の99%は正しいが、オブジェクトの約40%がとしてビン化されることがわかりますUncertain
。
それでは、投票情報を利用して予測の確実性をスコアリングすることは理にかなっていますか?または、私は自分の考えで間違った方向に向かっていますか?