投げ縄の最適なペナルティ選択


15

ペナルティ項の係数の最適な選択に関する分析結果または実験論文はありますか。することで、最適な、私は最適なモデルを選択する確率、またはその最小化予想損失を最大化するパラメータを意味します。問題のインスタンスの数が多いため、または手元の問題のサイズのために、相互検証またはブートストラップによってパラメーターを選択することは非現実的であることが多いためです。私が知っている唯一の肯定的な結果は、 and Plan、最小化によるほぼ理想的なモデル選択です。11


2
投げ縄の一貫性のある結果を確立している論文をご存知ですか?Knight&Fu(2000)、Yu&Zhao(2006)、およびMeinshausenによるさまざまな論文。
枢機卿

はい、しかし、あなたが言及した論文の主題である漸近的な一貫性についてではありません。
ギャップのある

1
これらの論文は(主に)モデル選択の一貫性に関するものであり、あなたが尋ねた質問と非常に関連していると思います。:)
枢機

回答:


2

このBickelらのチェックアウト定理5.1 。エラーに関して統計的に最適な選択は\ lambda = A \ sigma _ {\ text {noise}} \ sqrt {\ dfrac {\ log p } {n}}(確率が高い)、定数A> 2 \ sqrt {2}の場合yy^λ22λ=AσノイズログpnA>22


知っている必要があるため、これは法案に適合しないようです。実際、平方根の投げ縄(arxiv.org/pdf/1009.5689.pdf)を動機付けているのはまさにこの問題ですσnose
user795305

5

私は、他のアプリケーションあなたは、ほとんどの論文のように、回帰に興味があることそれを取る、そしてない -penalty(グラフィカル投げ縄を、言って)。1

それから、ゾウらによる投げ縄の「自由度」に関する論文にいくつかの答えが見つかると信じています。簡単に言えば、有効な自由度の分析式を提供します。これにより、二乗誤差損失のために、CVを分析的なタイプの統計で置き換えることができます。Cp

注目すべきもう1つの場所は、ダンツィッヒセレクターです。pがnよりはるかに大きい場合の統計的推定と、Annals of Statisticsの同じ号のディスカッションペーパーです。私の理解では、それらは投げ縄回帰に密接に関連する問題を解決するが、ペナルティ係数の固定された選択である。ただし、ディスカッションペーパーもご覧ください。

予測に興味がなく、モデルの選択に興味がある場合、同様の結果を知りません。予測最適モデルでは、多くの場合、回帰モデルで選択される変数が多すぎます。論文では、安定性の選択 MeinshausenとBühlmannが、モデルの選択に役立つサブサンプリング手法を紹介していますが、ニーズに対しては計算量が多すぎるかもしれません。


(+1)これらの3つの論文はすべて、この主題に興味のある人にとって注意深く読む価値があります。Dantzigセレクターペーパーには、非常に優れた数学があります。しかし、私はそれがアプリケーションで大きな牽引力を得るのを見たことがありませんし、期待もしていません。とりわけ、非常にノイズの多い正則化パスは人々を緊張させるので、投げ縄に比べて明らかな利点はありませんが、売り込みは難しいと思います。
枢機

ええと、正則化パラメーターの特定の値に対する非ゼロ係数の数は、その値でのDoFの不偏推定値ですが、この推定値は非常に高分散であることに注意してください。
-dohmatob

1

この質問が出されて以来、興味深い進展がありました。たとえば、この論文を検討してください

Chichignoud、M.、Lederer、J。、およびWainwright、M。(2016)。最適な保証で投げ縄を調整するための実用的なスキームと高速アルゴリズム。Journal of Machine Learning Research、17、1–17。

彼らは、モデル選択のための証明可能な有限サンプル保証を備えたLASSOチューニングパラメーターを選択する方法を提案しています。彼らが論文で述べているように、「クロスキャリブレーションの標準キャリブレーションスキームについては、文献では同等の保証はありません。実際、標準キャリブレーションスキームの有限サンプル保証については認識していません」。


0

これはあなたの質問には答えませんが、大規模なデータ設定では、クロスバリデーションで10回程度(またはブートストラップ用に)行うのではなく、単一のトレイン/テストスプリットを使用してレギュライザーを調整するのが良いかもしれません。devsetに選択したサンプルのサイズと代表性により、最適なレギュラーの推定の精度が決まります。

私の経験では、保持された損失は、かなりのレギュラー範囲にわたって比較的フラットです。この事実は他の問題には当てはまらないと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.