厳密にバイナリデータの分類モデルを構築する


8

厳密にバイナリであるデータセットがあります。各変数の値のセットはドメイン内にあります:true、false。

このデータセットの「特別な」プロパティは、値の圧倒的多数が「false」であることです。

ベイジアンネットワーク学習アルゴリズムを使用して、データからネットワークを学習しました。ただし、ターゲットノードの1つ(最も重要なノードは死)の場合、AUCの結果はあまり良くありません。偶然より少し良いです。CVについて私に提案されているポジティブ予測値(PPV)でさえ、他のアプローチを使用した文献で報告されているものと競合しませんでした。AUC(ROC分析)は、臨床研究のこの領域で報告される典型的なベンチマークですが、他にアイデアがある場合は、分類モデルをより適切にベンチマークする方法についての提案も開かれています。

そのため、このプロパティを使用してこのタイプのデータセット(ほとんどの場合、偽の値)に対して他のどの分類モデルを試すことができるか考えていました。

  • ベクターマシンのヘルプをサポートしますか?私の知る限り、SVMは連続変数(予測子としての変数)のみを扱います(ただし、マルチクラスに適合されています)。しかし、私の変数はすべてバイナリです。
  • ランダムフォレストは役に立ちますか?
  • ここでロジスティック回帰が適用されますか?私の知る限り、ロジスティック回帰の予測子も連続しています。予測子としてのバイナリ変数の一般化バージョンはありますか?

分類のパフォーマンスは別として、SVMとランダムフォレストはベイジアンネットワークよりも優れていると思いますが、問題はこれらのモデルの関係を説明する方法(特に臨床医)に移ります。


これは何度も尋ねられました、私はここで同様の質問に答えました:stats.stackexchange.com/questions/78469/… そしてここ:stats.stackexchange.com/questions/67755/…そして、出力をどのように解釈するかに関しては、チェックする必要がありますターゲット変数に対する説明変数の限界効果を解釈する方法を説明します。たとえば、hosho.ees.hokudai.ac.jp
〜kubo

データが非常にまばらで、一般にかなり貧弱な場合は、最近傍分類子を調べることをお勧めします。ただし、機能を適切に比較検討してください。
Akavall 14年

@Akavallは、機能を適切に重み付けするための指針を教えていただけませんか?それらはすべてバイナリ(予測子とクラス変数)です。PPVを主な重みとして使用したいのですが、相互の情報も使用できます。または、任意の数の分割表関連付け分析を使用できると仮定します。
ジェーンウェイン

@JaneWayne、最近傍は、特徴の選択/特徴の重み付けに関して何もしません。特徴が悪いか不適切に重み付けされている場合、アルゴリズムは本当に悪い結果をもたらします。一方、特徴が適切に重み付けされている場合、この単純なアルゴリズムは非常にうまく機能します。ただし、適切な重み付けは簡単ではありません。そして、あなたの現在のソリューションはすでに良いかもしれません。データセットについて何か知っている場合は、一部の機能に手動でより大きな重みを割り当てることができます。または、モデルのパフォーマンスをさまざまなタイミングで評価できる場合は、ある種の学習ヒューリスティックアルゴリズムを選択して選択することができます
Akavall

パフォーマンスに基づく機能。ただし、ここでは、最大化しようとしている目的関数は比較的スムーズであり、探査と開発のトレードオフのためにコストがかかると想定する必要があります。
Akavall

回答:


4

ベクターマシンのヘルプをサポートしますか?私が知る限り、SVMは連続変数のみを扱います-予測子としての変数...

バイナリ変数はSVMの問題ではありません。まさにそのようなデータ(ハミングカーネル、Tanimoto / Jaccardカーネル)に特化したカーネルも存在しますが、カーネルメソッドに精通していない場合は、それらを使用することはお勧めしません。

ここでロジスティック回帰が適用されますか?私の知る限り、ロジスティック回帰の予測子も連続的です

ロジスティック回帰は、バイナリ予測子で機能します。それはおそらくあなたの最良の選択肢です。

これらのモデルの関係を説明する方法(特に臨床医)。

線形SVMを使用している場合、何が起こっているのかを説明するのはかなり簡単です。ただし、ほとんどの臨床医は実際にこれらのモデルを知っているため(そして、私が聞いたことがあるということを知っているため)、ロジスティック回帰の方がより良い選択肢です。


1

約300万のバイナリデータを過半数の値で分類する実験を共有したいと思います。私は線形SVM、複雑なツリー、LDA、QDA、ロジスティック回帰などを使用しました。これらすべての方法の効率は約54%で、これは良くありません。私の教授によると、この問題で私を助けることができる分類法はニューラルネットワーク、二次SVMですが、私はこれらをテストしていません。これがお役に立てば幸いです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.