ランダムフォレストのマルチクラスよりもランダムフォレストの1対すべてを使用した方がパフォーマンスが良いですか?


11

私は9つの可能なラベルを持つマルチクラス問題に取り組んでいます。そのため、約50.000の例とそれぞれ約200の特徴で構成されるデータセットがあります。各例は1つのクラスにのみ属することができます。データは、異なるラベル間でかなりバランスが取れています。

その堅牢性とスケーラビリティを考慮して、学習方法としてランダムフォレスト(1,000本の木の集合)を使用することにしました。このデータセットが与えられたモデルのパフォーマンス精度を評価するために、私はstratified5Fold交差検証を使用しました(私はscikit-learn 0.18を使用しています)。

ランダムフォレストは本質的にマルチクラスデータセットを処理できるため、指定されたデータセットで直接使用し、79.5 0.3の精度を得ました。私はまた、機能がより重要性、簡単属性から抽出することができる何か持っていた知ることに興味があったfeature_importances_RandomForestClassifier scikitのを。ただし、データセットはバランスが取れており、予想通り、200のうち異なるクラスに寄与するフィーチャの数はほぼ同じであることを考えると、どのフィーチャが各クラスに最も寄与するかを特定できませんでした。±

結果として、私は同じランダムフォレストのセットアップを使用して、1対すべての戦略を採用しました(ところで、oneVsAll戦略を使用するときにデータの不均衡を考慮に入れるとコストに敏感です)。これにより、各クラスと残りの機能はより重要です。これについて私が得た結果は合理的です。さらに、この戦略を使用してモデルのパフォーマンスを確認したところ、88.7 0.2の精度が得られました。これは、マルチクラスのランダムフォレストがマルチクラスの性質を考慮してより適切に分類することを期待していたので、驚きました。±

私はこれで正しいですか?このような精度の違いはもっともらしいでしょうか?さらに、ランダムフォレスト自体がoneVsAll戦略などの「ハッキング」なしでマルチクラスの問題に取り組むことができるという条件で、上記の戦略はOKで公正に採用されていますか?


正確さをどのように正確に定義しますか?それは両方のケースで同等ですか?
amanita kiki 2017

実験的な設定のため、これら2つの測定値の信頼区間は非常に大きくなっています。現時点では、パフォーマンスが異なるかどうかを言うことはできません。
David Ernst

回答:


4

私はあなたとまったく同じ質問をしました、そしてあなたのトピックに答えが投稿されていないことを知るのは少し悲しかったです...

そうは言っても、私が見つけたこの論文:ランダムフォレストのコンテキストでの1対すべての2値化手法(https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2015-5.pdf)は、 2015。

著者は、標準のマルチクラスランダムフォレスト分類子と比較して、1対残りのランダムフォレスト分類子を使用した場合の分類パフォーマンスが優れていることを示しています。

著者は、なぜそれがそれほどうまく機能するのかについて多くの手がかりを与えていませんが、1対残りのコンテキストで生成されたツリーはより単純です。

質問を投稿してから、自分で回答を見つけたのではないでしょうか。


2

結局のところ、選択したモデルクラスは、決定境界の形状を定義します。RandomForestsをマルチクラスとして、または1対すべてのマルチクラス分類子として使用する場合、唯一の違いを除いて、境界は等しく制約されます。モデルに合わせるために使用するデータです。モデルがデータにどの程度適合しているか、およびモデルがデータの不均衡の問題にどれほど影響を受けやすいかに応じて、マルチクラスが1対すべてよりも優れているというアプリオリな理由は実際にはわかりません。それらはあなたに異なるものを与えるだけです-1つはトレーニングするより多くのモデルを犠牲にしてクラスのすべてのペアのための決定を与えます、そして1つはあなたにクラスの決定をすぐに与えます 特にRandomForestsが凸の損失関数を解かないことを考えると、あなたがした結果を得ることができるので、それは私には完全にもっともらしいことです。

分類子に関連する機能を見つけることに特に関心がある場合は、L1損失ペナルティを使用したロジスティック回帰をお勧めします。これは、スパース性により、クラスのペアごとに予測される機能の小さなサブセットが得られるためです。持ってる。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.