機能選択にのみLASSOを使用する


10

l1

私の質問:人々は通常、機能選択を行うためだけにLASSOモデルを使用しますか(そして、それらの機能を別の機械学習モデルにダンプします)、または通常、機能選択と実際の回帰の両方を実行するためにLASSOを使用しますか?

l1l2l1l2

回帰とは別に、これは分類タスク(SVM、ニューラルネットワーク、ランダムフォレストなどを使用)を実行する際の賢明な戦略ですか?


1
はい、他のモデルの機能選択に投げ縄を使用することをお勧めします。あるいは、ツリーベースの機能選択を他のモデルに供給することもできます
karthikbharadwaj

1
投げ縄は線形モデルでのみ特徴選択を実行します-予測子の高次の相互作用や非線形性についてはテストしません。それがどのように重要であるかの例については:stats.stackexchange.com/questions/164048/…走行距離は異なる場合があります。
Sycoraxは、モニカを2016

回答:


11

何らかの形のモデル選択を行い、その後、モデル選択が以前に行われなかったかのようにさらに分析を行うほとんどすべてのアプローチは、一般に貧弱な割合しかありません。これが例外であることを示すために、たとえば現実的なサンプルサイズと機能とサンプルサイズの比率に関する広範なシミュレーション研究からの証拠によって裏付けられた説得力のある理論的議論がない限り、そのようなアプローチには不十分な特性がある可能性があります。私はこのアプローチのそのような前向きな証拠を知りませんが、おそらく誰か他の人がそうです。すべての望ましい目標(エラスティックネットなど)を達成するための合理的な代替手段がある場合、このアプローチは、疑わしいアドホックアプローチを代わりに使用して正当化するのが困難です。


3
同意しました...ポイントはすべてが相互検証フレームワーク内に収まる必要があることです...したがって、ネストされた相互検証を実行して2つの個別の正則化を行う必要があります(そうでない場合、問題が発生します)、ネストされた相互検証では使用するデータが少なくなります各パーツ。
seanv507 2016年

1

上記のすべての回答に加えて、2x2およびrxcテーブルの正確なchi2置換テストを計算することが可能です。観測されたカイ2乗統計の値を漸近カイ2乗分布と比較する代わりに、正確な順列分布と比較する必要があります。行と列のマージンを一定に保ちながら、あらゆる方法でデータを並べ替える必要があります。並べ替えられたデータセットごとに、chi2統計を計算しました。次に、観測されたchi2を(ソートされた)chi2統計と比較します。並べ替えられたchi2検定統計間の実際の検定統計のランキングは、p値を与えます。


回答に詳細を追加していただけませんか?現在の形式では、正確なchi2検定をどのように計算するかは明らかではありません。
Antoine Vernet
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.