ロジスティック回帰のランキング機能


10

私はロジスティック回帰を使用しました。6つの機能があります。他の機能よりも結果に影響を与えるこの分類子の重要な機能を知りたいです。Information Gainを使用しましたが、使用する分類子に依存しないようです。特定の分類子(ロジスティック回帰など)に基づいて機能を重要度に従ってランク付けする方法はありますか?任意の助けをいただければ幸いです。


3
ロジスティック回帰は分類器ではありません。ロジスティック回帰が直接確率推定モデルであることを反映するように質問を書き直してください。
フランクハレル2016

1
フランクハレルによって提起されたポイントは別として、推定された係数の値を見ましたか?これは間違いなく機能をランク付けする最良の方法ではありませんが、出発点を与えることができます。p
usεr11852

9
確かに、ロジスティック回帰は確率を推定するものであり、物事を明示的に分類するものではありませんが、誰が気にしますか?多くの場合、目的は最も可能性の高いクラスを決定することであり、それを使用しているのであれば、それを分類子と呼んでも問題はありません。
dsaxton 2016

回答:


5

あなたが探している答えはボルタのアルゴリズムかもしれません。これは、「すべての関連性」の意味で機能の重要性を直接測定するラッパーメソッドであり、Rパッケージに実装されています。これ このプロットは、機能の重要性がy軸にあり、ここでは青色でnullがプロットされています。このブログ投稿では、アプローチについて説明しています。非常に明確なイントロとして読むことをお勧めします。


p>>n

@usεr11852いいえ、違います。私はこれを先週かそこらで見つけただけです。
babelproofreader 2016

うーん... OK、ボルタは非常に有望に思えますが、私はそれらをより良い研究の一部として見て、それらが優れていない場合を見るまで(無料のランチの定理はありません)、素晴らしい新しいアルゴリズムについて常に懐疑的です。
usεr11852

興味深いアイデアですが、ロジスティック回帰とは関係ありません。
フランクハレル2016

「ボルタは特徴の選択方法であり、特徴のランキング方法ではありません」パッケージのホームページのFAQを参照してください
ステディフィッシュ

3

R2

R2

ロジスティック回帰モデルで機能の重要性をランク付けする一般的なアプローチのリストは次のとおりです。

  1. R2
  2. 妥当性:各予測子によって個別に説明可能な完全モデルの対数尤度の割合
  3. 一致:肯定応答変数と否定応答変数を区別するモデルの機能を示します。予測子ごとに個別のモデルが構築され、重要度スコアは、その予測子のみに基づく真陽性の予測確率です。
  4. 情報値:情報値は、予測子から得られた結果に関する情報の量を定量化します。これは、他の予測子を考慮せずに、各予測子の分析に基づいています。

参照:

  1. ロジスティック回帰における説明変数の相対的重要度の測定について
  2. Rにおける線形リグレッサの相対的な重要性
  3. 相対的な重要性と価値、バリーフェルドマン(PMD法)

0

minw,bi=1nlog(1+exp(yifw,b(xi)))+λw2
xiyiiwbfw,b(xi)

xx

1

minw,bi=1nlog(1+exp(yifw,b(xi)))+λ|w|

λw

これがお役に立てば幸いです。他にご不明な点がありましたらお尋ねください。


4
LRは分類スキームではありません任意の分類の使用は、ユーティリティ/コスト関数を定義した後postestimationのステップとして来ます。また、OPはペナルティ付き最尤推定について質問しませんでした。回帰における変数の相対的な重要性の証拠を提供するために、ブートストラップを使用して、各予測子によって提供される追加の予測情報のランクの信頼限界を取得することは非常に簡単です。例は回帰モデリング戦略の第4章にあり、そのオンラインノートとRコードはbiostat.mc.vanderbilt.edu/RmS#Materials
Frank Harrell

4
ハレル先生、お願いします。これに2つの異なる側面から取り組んでいることは明らかです。統計学のあなたと私は機械学習の出身です。私はあなた、あなたの研究、そしてあなたのキャリアを尊重しますが、あなたはあなた自身の答えを公式化し、OPが彼の質問に対してどちらがより良い答えであると考えるかを決定することは自由です。私は学習に熱心ですので、あなたのアプローチを教えてください、しかし私にあなたの本を買わせないでください。
pAt84

1
ロジスティック回帰は、機械学習が存在する数十年前の1958年に統計学者DRコックスによって開発されたことに注意してください。また、定式化した「損失関数」(多分目的関数と呼ぶ方がいいですか?)は、分類とはまったく関係がないことに注意することも重要です。そして、私が言及したすべての情報を含むオンラインで利用可能な私の広範なメモとオーディオファイルは何か費用がかかることを何を意味しましたか?
フランクハレル2016

2
両方とも有効なポイントを上げるため、私は最初のコメントを両方とも賛成しました。その後...私にはささいな口舌のようなビットをコメント
usεr11852

4
PSこれをより明確に言うと、効用関数は2番目のステップで適用され、予測子とは無関係になるため、予測/推定を最適化すると最適な決定が得られます。予測/推定を最適化しても分類は最適化されず、その逆も同様です。分類の最適化は、手元のデータセットに合わせて調整された奇妙なユーティリティ関数を使用することを意味し、新しいデータセットには適用されない場合があります。分類を最適化したい人(非推奨)は、推定/予測を完全にバイパスする方法を使用できます。
フランクハレル2016
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.