私の質問:人々は通常、機能選択を行うためだけにLASSOモデルを使用しますか(そして、それらの機能を別の機械学習モデルにダンプします)、または通常、機能選択と実際の回帰の両方を実行するためにLASSOを使用しますか?
回帰とは別に、これは分類タスク(SVM、ニューラルネットワーク、ランダムフォレストなどを使用)を実行する際の賢明な戦略ですか?
私の質問:人々は通常、機能選択を行うためだけにLASSOモデルを使用しますか(そして、それらの機能を別の機械学習モデルにダンプします)、または通常、機能選択と実際の回帰の両方を実行するためにLASSOを使用しますか?
回帰とは別に、これは分類タスク(SVM、ニューラルネットワーク、ランダムフォレストなどを使用)を実行する際の賢明な戦略ですか?
回答:
何らかの形のモデル選択を行い、その後、モデル選択が以前に行われなかったかのようにさらに分析を行うほとんどすべてのアプローチは、一般に貧弱な割合しかありません。これが例外であることを示すために、たとえば現実的なサンプルサイズと機能とサンプルサイズの比率に関する広範なシミュレーション研究からの証拠によって裏付けられた説得力のある理論的議論がない限り、そのようなアプローチには不十分な特性がある可能性があります。私はこのアプローチのそのような前向きな証拠を知りませんが、おそらく誰か他の人がそうです。すべての望ましい目標(エラスティックネットなど)を達成するための合理的な代替手段がある場合、このアプローチは、疑わしいアドホックアプローチを代わりに使用して正当化するのが困難です。
上記のすべての回答に加えて、2x2およびrxcテーブルの正確なchi2置換テストを計算することが可能です。観測されたカイ2乗統計の値を漸近カイ2乗分布と比較する代わりに、正確な順列分布と比較する必要があります。行と列のマージンを一定に保ちながら、あらゆる方法でデータを並べ替える必要があります。並べ替えられたデータセットごとに、chi2統計を計算しました。次に、観測されたchi2を(ソートされた)chi2統計と比較します。並べ替えられたchi2検定統計間の実際の検定統計のランキングは、p値を与えます。