3
線形分類器の場合、係数が大きいほど重要な機能を意味しますか?
私は機械学習に取り組んでいるソフトウェアエンジニアです。私の理解から、線形回帰(OLSなど)および 線形分類(ロジスティック回帰やSVMなど)は、トレーニング済み係数 と特徴変数内積に基づいて予測を行います。w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 私の質問は、モデルがトレーニングされた後(つまり、係数が計算された後)、モデルがより正確に予測するために重要な特徴変数の係数が大きくなるということですか?wiwiw_i つまり、変数を係数値で並べ替えてから、最も高い係数を持つフィーチャを選択するだけで、係数の相対的な大きさをフィーチャ選択に使用できるかどうかを尋ねています。このアプローチが有効な場合、機能の選択について(ラッパーメソッドやフィルターメソッドなどとともに)言及されていないのはなぜですか。 私がこれを尋ねる理由は、L1対L2の正規化に関する議論に出くわしたためです。次のような宣伝文句があります: 組み込み機能の選択は、L1-normの有用なプロパティとして頻繁に言及されていますが、L2-normはそうではありません。これは実際にはL1ノルムの結果であり、スパース係数を生成する傾向があります(以下で説明します)。モデルに100個の係数があり、そのうちの10個のみが非ゼロ係数を持つと仮定すると、これは事実上「他の90個の予測変数は目標値の予測には役に立たない」と言っています。 行間を読むと、係数が0に近い場合、その係数を持つ特徴変数にはほとんど予測力がないはずだと思います。 編集:私はまた、数値変数にZスケーリングを適用しています。