1つの主要な予測子による分類

（クラス）分類問題があり、100程度の実数値予測子があり、そのうちの1つは他のどれよりもはるかに説明力があるようです。他の変数の影響についてさらに詳しく説明したいと思います。ただし、標準の機械学習手法（ランダムフォレスト、SVMなど）は、1つの強力な予測子に圧倒され、他の興味深い情報はあまり得られないようです。 $k$

これが回帰問題である場合、私は単純に強力な予測子に対して回帰し、残差を他のアルゴリズムの入力として使用します。しかし、このアプローチがどのように分類コンテキストに変換されるのか、実際にはわかりません。

私の本能は、この問題はかなり一般的である必要があるということです。それを処理するための標準的な手法はありますか？

machine-learning classification

— マーティン・オリアリー
ソース

2クラスの問題の場合、RでGBMパッケージを使用できます。これは、分類ツリーを損失関数の残差に繰り返し適合させます。残念ながら、それはまだマルチクラスの問題をサポートしていません。

これはブースティングに適している問題のようですが、kクラスの問題をサポートするブースティングパッケージについては知りません。問題は、複数のクラスに適切な損失関数を作成することだと思います。glmnetパッケージは、多項損失関数を持っている、おそらくあなたはいくつかのポインタのためのそれのソースコードを見ることができます。

独自のブースティングアルゴリズムを作成するか、問題をkバイナリ分類問題（1つのクラス対他のすべてのクラス）に変換し、gbmモデルを各問題に当てはめて、各モデルのクラス確率を平均化できます。

— ザック
ソース

Zach開発の安定性のどこにあるのかはわかりませんが、R ForgeのGBMには、多項分類を可能にする損失関数として多項ロジスティックがあります。

— B_Miner

ありがとう！ブースティングはこれにアプローチするための良い方法である可能性が高いことに同意し、私はあなたが提案したものを調べます。問題を変換することによってこれに取り組む良い方法があるかどうか私はまだ興味があります。

— Martin O'Leary

@ザックそれがどのように機能するか教えてください。

— B_Miner