何らかの正規化された推定を使用して、高次元のデータから多数のパラメーターを推定しようとしているとします。レギュラライザーは推定値にある程度のバイアスを導入しますが、分散の減少はそれを補う以上のものでなければならないため、依然として良いトレードオフになる可能性があります。
問題は、信頼区間を推定するときに発生します(たとえば、ラプラス近似またはブートストラップを使用)。具体的には、推定値の偏りにより、信頼区間のカバレッジが悪くなり、推定量の頻度特性を判断することが難しくなります。
この問題について議論している論文をいくつか見つけました(例:「エッジワース展開に基づくリッジ回帰の漸近信頼区間」)が、数学はほとんど私の頭の上にあります。リンクされた論文では、方程式92-93がリッジ回帰によって正則化された推定値の補正係数を提供しているように見えますが、さまざまな正則化器で機能する適切な手順があるかどうか疑問に思っていました。
一次補正でさえ非常に役立ちます。
4
+1のタイムリーで重要な質問-現時点では誰もがこれに肯定的に答えることができるかどうかはわかりませんが(それを適切に行う方法がわからないので、知っていれば、統計論文が並んでいます)。関連する質問:stats.stackexchange.com/questions/91462/…ブートストラップは純粋にそのような状況で実行されますが、それは役に立ちません。
—
モモ
リンクをありがとう。ブートストラップに関して何を意味したのか明確にできますか?
—
デビッドJ.ハリス
また、私はまだ誰かが非スパースなレギュラーにうまく機能するメソッドを持っていることを期待しています。L1のペナルティは、すべての推定値がゼロに積み上げられているため、事態を特に困難にしていると思います。再度、感謝します。
—
デビッドJ.ハリス
論文ルーベンDezeure、ピーターBühlmann、ルーカスマイヤーとニコライMeinshausenは、高次元の設定で推論に私の知る限り最新かつ包括的なアカウントです。
—
NRH