厳密にバイナリであるデータセットがあります。各変数の値のセットはドメイン内にあります:true、false。
このデータセットの「特別な」プロパティは、値の圧倒的多数が「false」であることです。
ベイジアンネットワーク学習アルゴリズムを使用して、データからネットワークを学習しました。ただし、ターゲットノードの1つ(最も重要なノードは死)の場合、AUCの結果はあまり良くありません。偶然より少し良いです。CVについて私に提案されているポジティブ予測値(PPV)でさえ、他のアプローチを使用した文献で報告されているものと競合しませんでした。AUC(ROC分析)は、臨床研究のこの領域で報告される典型的なベンチマークですが、他にアイデアがある場合は、分類モデルをより適切にベンチマークする方法についての提案も開かれています。
そのため、このプロパティを使用してこのタイプのデータセット(ほとんどの場合、偽の値)に対して他のどの分類モデルを試すことができるか考えていました。
- ベクターマシンのヘルプをサポートしますか?私の知る限り、SVMは連続変数(予測子としての変数)のみを扱います(ただし、マルチクラスに適合されています)。しかし、私の変数はすべてバイナリです。
- ランダムフォレストは役に立ちますか?
- ここでロジスティック回帰が適用されますか?私の知る限り、ロジスティック回帰の予測子も連続しています。予測子としてのバイナリ変数の一般化バージョンはありますか?
分類のパフォーマンスは別として、SVMとランダムフォレストはベイジアンネットワークよりも優れていると思いますが、問題はこれらのモデルの関係を説明する方法(特に臨床医)に移ります。