ロジスティック回帰とランダムフォレストの結果を組み合わせる方法


12

機械学習は初めてです。同じデータセットにロジスティック回帰とランダムフォレストを適用しました。したがって、変数の重要度(ロジスティック回帰の絶対係数とランダムフォレストの変数の重要度)が得られます。最終的な変数の重要度を取得するために2つを組み合わせることを考えています。誰でも彼/彼女の経験を共有できますか?バギング、ブースティング、アンサンブルモデリングを確認しましたが、それらは私が必要としているものではありません。それらは、同じモデルの情報を複製全体で組み合わせるためのものです。私が探しているのは、複数のモデルの結果を組み合わせることです。


5
Ensembleモデリングでは、モデルを組み合わせることもできます。たとえば、多数決投票を調べます。スタッキングも参照してください。
2013年

4
実際には、係数のサイズを使用することは、ロジスティック回帰で「変数の重要度」を決定するための良い方法ではありません。標準化された係数を見ても、それは良い方法ではありません。どうして?係数は単なる推定であり、それに関連するエラーがあることに注意してください。サイズごとに係数を選択するということは、係数サイズを過大評価したものを選択し、係数サイズを過小評価したものを削除することを意味します。
user765195 2013年

回答:


12

変数の重要度を何に使用するかによります。3番目の分類モデルの特徴選択の基準として使用されますか?その場合、さまざまな値と平均重み付けについて、変数の重要度の重み付け平均を計算して(おそらく、個々の変数の重要度ベクトルを単位長に正規化した後)、最終的なクロスバリデーションされた最高のスコアを生成する値をピックアップすることができますモデル。

ロジスティック回帰モデルとランダムフォレストモデルの結果の組み合わせ(変数の重要度を考慮しない)に関しては、次のブログ投稿は非常に有益であり、出力の単一の平均化が回帰モデルの単純でありながら非常に効果的なアンサンブル法であることを示しています。


1
お返事ありがとうございます。あなたが言及したブログは本当に興味深い研究です。思いついたと思います。唯一の懸念は彼のクロスエントロピー公式です。オンラインで見つけたものとは違うようです。彼の使用:cross.entropy <-function(target、予測){予測= pmax(1e-10、pmin(1-1e-10、予測))-sum(ターゲット* log(予測)+(1-ターゲット)* log(1-予測))}
user1946504 2013年

2
同じ考え方を自分のデータセットに適用したとき、誤判別エラーを基準として使用した場合、プロットは似ていません。ランダムフォレストは、ロジスティック回帰よりもはるかに優れています。LRが0.4であるため、RFの誤分類誤差は0.2です。同時に、RFのAUCは0.8、LRのAUCは0.73です。
user1946504 2013年

5

(上記の応答とフィードバックについてのコメント)

ブログを読んでくれてありがとう!

クロスエントロピーエラー関数には小さなチートがあり、ログ関数のエラーを防止する安価で簡単な方法として、予測値を[1e-10、1-1e-10]に切り捨てます。それ以外の場合、これは標準の式です。

データセットについては、ランダムフォレストがログよりもはるかに優れているデータセットが存在する可能性が非常に高くなります。reg。とログ。reg。アンサンブルには何も追加しません。もちろん、ホールドアウトデータを使用していることを確認してください。ランダムフォレストでは、はるかに効果的なパラメーターがあるため、ほとんどの場合、トレーニングデータで優れた結果が得られます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.