リッジ回帰とLASSOの長所と短所についてはすでに考えています。
リッジ回帰の場合、一般に予測可能性が高くなります。ただし、その解釈可能性はLASSOほど優れていません。
上記の説明は、機械学習/データマイニングの教科書によく見られます。しかし、私はまだ2つのことについて混乱しています。
特徴の範囲を正規化して(たとえば、0と1の間、または平均と単位の分散がゼロの場合)、リッジ回帰を実行しても、係数の絶対値を並べ替えることで特徴の重要性を知ることができます(最も重要な特徴には係数の最高絶対値)。機能を明示的に選択していませんが、リッジ回帰を使用しても解釈可能性は失われません。それと同時に、高い予測能力を実現できます。では、なぜLASSOが必要なのでしょうか。ここで何か不足していますか?
LASSOは、その機能選択の性質上、推奨されますか?私の理解では、特徴選択が必要な理由は、一般化する能力と計算の容易さです。
計算を簡単にするために、いくつかのNLPタスクを実行している場合、100万個すべての機能をモデルにフィードしたくないため、最初に明らかに役に立たない機能をいくつか削除して、計算コストを削減します。ただし、LASSOの場合、特徴選択の結果(スパースベクトル)を知ることができるのは、すべてのデータをモデルにフィードした後なので、計算コストを削減するという点でLASSOのメリットはありません。予測結果を生成するためにモデルに機能のサブセット(たとえば、100万のうち500)をフィードするだけなので、予測を少し速くすることができます。
LASSOが一般化する機能に適している場合は、リッジ回帰(または他の種類の正則化)を使用して同じ目標を達成することもできます。なぜ再びLASSO(またはエラスティックネット)が必要なのですか?なぜリッジ回帰だけに固執できないのですか?
誰かがこれにいくつかの光を当ててもらえますか?ありがとう!