ロジスティック回帰における変数の重要性


11

私はおそらく以前に100回解決された問題を扱っていますが、どこで答えを見つけることができるかわかりません。

ロジスティック回帰を使用するとき、多くの特徴与えられ、バイナリのカテゴリ値を予測しようとすると、よく予測する特徴のサブセットを選択することに興味があります。 y yx1,...,xnyy

投げ縄に似た使用可能な手順はありますか?(線形回帰に使用されるなげなわを見ただけです。)

適合モデルの係数を見て、さまざまな特徴の重要性を示していますか?

編集-いくつかの回答を見た後の説明:

  1. 当てはめられた係数の大きさについて言及するときは、正規化された(平均0および分散1)特徴に当てはめられたものを意味します。そうでない場合、@ probabilityislogicが指摘したように、1000xはxよりも重要度が低いように見えます。

  2. (@Davideが提供していたように)最良のkサブセットを単に見つけることに興味はありませんが、さまざまな機能の相互の重要性を比較検討しています。たとえば、1つの機能は「年齢」で、もう1つの機能は「年齢> 30」です。それらの段階的な重要性は小さいかもしれませんが、両方とも重要かもしれません。

回答:


8

DWinの応答は答えを提供しますが、洞察はほとんどないので、いくつかの説明を提供することは役立つと思いました。

2つのクラスがある場合、基本的にはを推定しようとしています。これが必要なすべてであり、ロジスティック回帰モデルは以下を前提としています。p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

特徴重要性とは、それがどのように影響するか、つまり何であるかということです。P Pjppxij

小さな変化の後、あなたはそれを見ることができます

p=eβ0+β1Txi1+eβ0+β1Txi

導関数を計算すると、それがわかります

pxij=βjeβ0+β1Txi

これは明らかに他のすべての変数の値に依存します。ただし、係数のSIGNは希望どおりに解釈できることがわかります。負の場合、この機能により確率pが減少します。

推定手順では、モデルが正しいと想定してを推定しようとしています。正則化を使用すると、これらの推定にいくらかのバイアスを導入します。リッジ回帰と独立変数の場合、閉じた形式のソリューションを取得できます。β

βr^=β^β^+λ

あなたが見ることができるように、これはあなたの係数の符号を変えることができるので、その解釈さえばらばらになります。


1
eq1の分母のタイプミス?
フェルナンド

7

あなたの最後の質問への答えはフラットNOです。係数の大きさは決して重要性の尺度ではありません。投げ縄はロジスティック回帰に使用できます。あなたはその地域をもっと熱心に研究する必要があります。あなたが研究する必要がある方法は、「ペナルティを課された」方法を含むものです。「シャドウされた」予測子(どこかで定義されている可能性があるが、一般的には使用されていない用語)を明らかにする検出メソッドを探している場合は、予測子空間内の相互作用と非線形構造を検査するメソッドと、その空間への結果のリンク。フランク・ハレルのテキスト「回帰モデリング戦略」には、これらの問題と手法に関するかなりの議論があります。

後方選択戦略は、有効な結果を提供できません(ただし、結果は提供されます)。100個のイベントに対する20個のランダムな予測子のケースを見ると、逆方向選択プロセスで選択される2つまたは3つが見つかるはずです。現実世界での後方選択の普及は、慎重な統計的考察ではなく、SASおよびSPSSでの容易な可用性と、これらの製品のユーザーベースの高度な欠如を反映しています。Rのユーザーベースは、そのようなメソッドや、メーリングリストにリクエストを投稿するユーザーにアクセスするのが難しいため、通常、逆方向(または順方向)の選択方法に関連する問題についてアドバイスを受けます。


1
私は私がすべきことを知っています-どこから始めればよいかについて、いくつかの指針をいただければ幸いです。
Guy Adini、2013年

xn+1=1000x1xn+11000x1

上記の私のコメントを参照してください(正規化された機能を使用)。ありがとう。
Guy Adini、2013年

ありがとうございました。調べてみます。この「相互作用と予測子空間内の非線形構造の検査」で使用されるいくつかの一般的なアルゴリズムを挙げられますか、それとも非常にケースバイケースの状況ですか?
Guy Adini、2013年

回帰スプラインを使用して非線形性を検索し、スプライン項を「交差」させることができます。これにより、2D予測空間の1つの領域に制限されている効果を特定できます。ローカル回帰メソッドを使用することもできます。Rで最も使用されているローカル回帰方法はおそらく「mgcv」パッケージですが、古い「locfit」パッケージも引き続き使用できます。
DWin、2013年

-4

英語は私の母国語ではないので、何が問題なのかわからなかったかもしれませんが、最善のモデルを見つける必要がある場合は、すべての共変量を含むモデルから始めて、逆手順(および最終的には相互関係の追加)を試すことができます。次に、residuals_vs_predicted値とqq-plotグラフの両方を見て、モデルが現象を適切に記述しているかどうかを確認できます


ありがとう!あなたが提案しているのは、最も相関のある機能を段階的に追加することだと思います。これは理にかなっていますが、機能Aの方が機能Bよりも「どれだけ」重要であることがわかりません。たとえば、ある機能xと別の機能x + <小さなノイズ>があるとします。その場合、どちらも実際には便利な機能ですが、一方はもう一方に隠れています。x + <ノイズ>も重要となる方法を求めています。
Guy Adini、2013年

いいえ、後方手順は、すべての共変量を含むモデルから開始し、次に共変量(係数が有意ではない)を段階的に削除します(通常、有意な係数のみを含むモデルが得られるまで)。同じ目標を達成するためのより洗練された方法があると思いますが、私はただの学部生です!
Davide
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.