LASSO(正則化)がどのように機能するかを本当に理解していないと統計学者がどういう意味ですか?


10

Lasso(正規化)に関する最近のいくつかの統計話に行ったことがありますが、ここで浮かび上がってくるポイントは、なぜLassoが機能するのか、なぜLassoがうまく機能するのかがよくわからないということです。この声明が何を指しているのかと思います。Lassoがパラメーターの縮小による過剰適合を防止することによって技術的に機能する理由は明らかですが、そのようなステートメントの背後に深い意味があるのではないかと思います。誰かアイデアはありますか?ありがとう!


1
「作品」を定義します。正確に何をするために働くのですか?スパース性を高めるように機能しますか?過剰適合を防ぐために機能しますか?合理的な統計検定を作成するために機能しますか?-または別の言い方をすると、このコンテキストで「機能しない」とはどういう意味ですか?-現在の回答のコメントからわかるように、あなたが何をしているのかについて、いくつかの混乱があります。
RM

@RM、あなたは実際にはOPの言い換えをしているだけです。OPはおそらく、識別が困難なOPと同じ未知のものです。
Richard Hardy

1
@RichardHardyそうだと思いますが、そうだとすれば、OPが少なくとも、ポイントが出てきた統計会談のコンテキストを拡大して、うまくいけば、それらのスピーカーが何に焦点を当てるかに焦点を当てられることを願っています考えてきました。
RM

@RM、いいね。
Richard Hardy

回答:


11

なげなわのような方法の基礎を研究する統計学者と学習理論コミュニティの間のコミュニケーションの欠如が時々あります。投げ縄の理論的な特性は、実際には非常によく理解されています。

このドキュメントのセクション4には、そのプロパティの多くがまとめられています。結果はかなり技術的ですが、基本的には次のとおりです。

  • 十分に大きなデータセットについて、いくつかの穏やかな仮定の下で、スパースウェイトベクトルの真のサポート(ゼロ以外のエントリのセット)を高い確率で回復します。
  • の列があまり相関していない限り、サンプルサイズが大きくなるにつれて、最適なレートで正しい重みベクトルに収束します。X

3

Lassoが機能する理由を理解することにより、機能選択を実行する理由(つまり、一部の機能の重みを正確に0に設定すること)を理解することを意味する場合、それは非常によく理解されています。

ラグランジュ最適化としての投げ縄正則化


4
素敵なイラストをありがとうございますが、それはOPが関心を持っている部分ではないようです。もちろん、それを明確にするのはOPの責任です。
Richard Hardy

ダイアグラムのポイントがわかりません。
Michael R. Chernick 2017年

7
この図は、少なくともTibshiraniの最初のlasso論文以来存在しており、質問の助けにはならないため、反対票を投じました。ペナルティが標準なげなわでスパース性をもたらす理由をよく理解していますが、はそれだけではありません。係数の分布と仮説検定、特定のゼロパターンを強制するペナルティの変更、L1λ^
表現不能

4
@シャコンヌ、あなたのポイントは答えの素晴らしい基礎を形成します!
Richard Hardy

1
@シャコンヌ、それはラッソについて私たち理解していることを特定することによって、有用な議論を生み出すように見えました!
rinspy 2017年

2

モデル選択の一貫性の記号回復の問題があります(統計学者によって回答されています)。

推論の問題(推定値の信頼区間の構築)がありますが、これは研究のトピックです。

ほとんどの作業は、「学習理論コミュニティ」ではなく統計学者によって行われます。


これはすでに与えられたものにどのように追加されますか?
Michael R. Chernick 2017

ここでは推論の問題について誰も言及していませんが、これが主張(「理解されていない」)が最初に行われた理由だと思います。
Gao Zheng
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.