ランダムフォレスト(または別の分類子)による層別分類


12

だから、私は約60 x 1000の行列を持っています。私はそれを1000の特徴を持つ60個のオブジェクトとして見ています。60個のオブジェクトは3つのクラス(a、b、c)にグループ化されます。各クラスには20個のオブジェクトがあり、真の分類がわかります。この60のトレーニング例のセットで教師あり学習を行いたいのですが、分類機能の精度(および関連するメトリック)と1000の機能の機能選択の両方に興味があります。

まず、私の命名はどうですか?

今本当の質問:

ランダムフォレストを、前述のように、または他の任意の数の分類器にスローすることができます。しかし、微妙な点があります。クラスcとクラスaおよびbを区別することだけが重要です。クラスaとbをプールすることもできますが、c以外のすべてのオブジェクトが2つの異なるクラスターを形成する可能性があるという先験的な知識を使用する良い方法はありますか?私と同様のデータで効果的であることが示されているので、ランダムフォレストまたはそのバリアントを使用したいと思います。しかし、私は他のいくつかのアプローチを試すことを確信することができました。


k

1
はい、これらの60だけです。しかし、ランダムフォレストの場合、各決定木はサンプルのサブセットで作成されるので、既存の60サンプルのそれぞれを、フォレスト内のそれらのツリーにのみ適用することにより、一般化誤差の推定値を取得できます作成中にそのサンプルが表示されない。(stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#ooberr)したがって、ここでは通常の相互検証は必要ありません。
user116293 2012

ここでのオーバーフィットについては非常に心配する必要があります。あなたは60個のオブジェクトを持つ1000個の変数を持っています、それが周りの他のキーであるなら私はずっと気分が良くなります、そして私はまだ過剰適合について心配するべきだと言います。分析を行う前に変数の数を減らす論理的または意味的な方法はありますか?
2014年

回答:


8

c以外のすべてのオブジェクトが2つの異なるクラスターを形成する可能性があるというアプリオリな知識を使用する良い方法はありますか

ツリーベースの方法を使用している場合、これらの分類器が特徴空間を分割するので、私はそれは重要ではないと思います。次に、各クラスのサンプルの比率を調べます。したがって、重要なのは、各ターミナルノードでのクラスcの相対的な出現です。

ただし、法線、LDAなどの混合のようなものを使用している場合は、2つのクラスターを結合することはお勧めできません(クラスaとクラスbが一意のクラスターを形成すると仮定)。ここでは、クラス構造を保持して、a、b、cにマップする特徴空間を正確に記述する必要があります。これらのモデルは、各クラスの機能が異なる正規分布を持っていることを前提としています。aとbを組み合わせると、単一の正規分布を強制的に混合に適合させることができます。

要約すると、ツリーについては、次の場合はそれほど問題になりません。

I. 3つの分類子(1. a対b、2。a対cおよび3. b対c)を作成し、投票ベースの方法で予測します。

II。クラスaとbをマージして、2クラスの問題を作成します。

III。3つのクラスすべてを予測し、予測を2つのクラス値にマッピングします(たとえば、f(c)= c、f(a)= not c、f(b)= not c)。

ただし、各クラスに分布を適合させるメソッドを使用する場合は、IIを避けてください。I.またはIIIのどちらかをテストします。あなたの問題によりよく働く


IIIは良さそうですね。分類子がサンプルが.33 a、.33 b、および.34 cであると言っている場合、私はおそらくaとbの確率を合計する必要があるため、「not c」を選択します。
user116293

1
(I)の場合、分割投票(1:a、2:c、3:b)に適した手順は何ですか?それとも、あまりにもまれで本当に重要なことではないでしょうか?
user116293

IIIの場合。あなたの提案は正しいです。I. 3つのクラスのデータについては、推移的なプロパティに違反する必要があるため、投票を分割する手段(各1つ)はないと思います。ただし、4つ以上のクラスの場合、上部にタイがあると考えられます。その場合、勝敗ではなく数値を使用できます。つまり、重みの合計は最大の重みクラスを取ります。
muratoa 2012
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.