タグ付けされた質問 「regularization」

モデルフィッティングプロセスに追加の制約を含める(通常は複雑さのペナルティ)。過剰適合の防止/予測精度の向上に使用されます。

2
場合の「単位分散」リッジ回帰推定量の制限
に単位平方和(同等に、単位分散)が必要な追加の制約を使用したリッジ回帰を検討してください。必要に応じて、は単位平方和もあると想定できます。 Yy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. \ lambda \ to \ inftyの場合、\ hat {\ boldsymbol \ beta} _ \ lambda ^ *の制限は何ですか?β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^*λ→∞λ→∞\lambda\to\infty 以下は、私が真実だと信じている声明です。 \ lambda = 0の場合λ=0λ=0\lambda=0、きちんとした明示的な解決策があります。OLS推定器を取るβ^0=(X⊤X)−1X⊤yβ^0=(X⊤X)−1X⊤y\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf yおよび制約を満たすように正規化します(ラグランジュ乗数を追加して微分することでこれを見ることができます): β^∗0=β^0/∥Xβ^0∥.β^0∗=β^0/‖Xβ^0‖.\hat{\boldsymbol\beta}_0^* = \hat{\boldsymbol\beta}_0 \big/ \|\mathbf X\hat{\boldsymbol\beta}_0\|. …

2
正規化された推定による信頼区間のカバレッジ
何らかの正規化された推定を使用して、高次元のデータから多数のパラメーターを推定しようとしているとします。レギュラライザーは推定値にある程度のバイアスを導入しますが、分散の減少はそれを補う以上のものでなければならないため、依然として良いトレードオフになる可能性があります。 問題は、信頼区間を推定するときに発生します(たとえば、ラプラス近似またはブートストラップを使用)。具体的には、推定値の偏りにより、信頼区間のカバレッジが悪くなり、推定量の頻度特性を判断することが難しくなります。 この問題について議論している論文をいくつか見つけました(例:「エッジワース展開に基づくリッジ回帰の漸近信頼区間」)が、数学はほとんど私の頭の上にあります。リンクされた論文では、方程式92-93がリッジ回帰によって正則化された推定値の補正係数を提供しているように見えますが、さまざまな正則化器で機能する適切な手順があるかどうか疑問に思っていました。 一次補正でさえ非常に役立ちます。

1
「スペクトル分解」によるリッジ回帰を使用した収縮係数の証明
リッジ回帰により、係数が幾何学的にゼロに縮小する方法を理解しました。さらに、特別な「正規直交ケース」でそれを証明する方法を知っていますが、「スペクトル分解」を介して一般的なケースでそれがどのように機能するか混乱しています。

5
正則化アルゴリズムを使用している間に、特徴選択を行う必要がありますか?
統計学習アルゴリズムを実行する前に、特徴選択方法(ランダムフォレストの特徴の重要度値または単変量の特徴選択方法など)を使用する必要性に関して1つの質問があります。 重みベクトルに正則化ペナルティを導入することができる過剰適合を避けることがわかっています。 したがって、線形回帰を行いたい場合は、L2またはL1またはElastic net正則化パラメーターを導入できます。スパースソリューションを取得するには、L1ペナルティが機能選択に役立ちます。 その後、LassoなどのL1正則化回帰を実行する前に、機能の選択を行う必要がありますか?技術的には、LassoはL1ペナルティによって機能を削減するのに役立ちます。それでは、なぜアルゴリズムを実行する前に機能を選択する必要があるのですか? Anovaを実行してからSVMを実行すると、SVMを単独で使用するよりもパフォーマンスが向上するという研究記事を読みました。ここで質問です。SVMは本質的にL2ノルムを使用して正則化を行います。マージンを最大化するために、重みベクトルのノルムを最小化しています。そのため、その目的関数で正則化を行っています。それでは、SVMなどの技術的なアルゴリズムは、機能の選択方法に煩わされるべきではありませんか?しかし、レポートでは、通常のSVMがより強力になる前に、単変量の特徴選択を行うといわれています。 考えている人はいますか?

1
libsvm「反復の最大数に達する」警告および相互検証
次数2の多項式カーネルでC-SVCモードでlibsvmを使用しており、複数のSVMをトレーニングする必要があります。各トレーニングセットには、10個の機能と5000個のベクトルがあります。トレーニング中に、トレーニングするほとんどのSVMでこの警告が表示されます。 WARNING: reaching max number of iterations optimization finished, #iter = 10000000 誰かがこの警告が何を意味するのか、おそらく、それを回避する方法を説明してもらえますか? また、ガンマとC(正則化)の最適な選択を決定するために、モデルに相互検証を適用したいと思います。私の計画は、これらの10個の値のすべての組み合わせを試すことです:0.00001、0.0001、0.001、0.01、0.1、1、10、100、1000、10000の両方のパラメーターで、交差検証中にどの組み合わせが最高の精度をもたらすかを確認します。これで十分ですか?この間隔でより多くの値を使用する必要がありますか、それともより広い間隔を選択する必要がありますか?


2
予測ではなくモデリングのみに関心がある場合、正則化は役立ちますか?
予測や予測ではなく、モデルパラメーターの推定(および解釈)のみに関心がある場合、正則化は役立ちますか? あなたの目標が新しいデータの良い予測をすることである場合、正則化/相互検証が非常に有用であることがわかります。しかし、伝統的な経済学をやっていて、見積もるだけなら、どうでしょうか?クロスバリデーションもそのコンテキストで役立ちますか?概念的な難易私の闘争は、我々が実際に計算できるということであるL ( Y 、Y)試験データに、しかし、我々はできる計算決してL ( β 、β)真ため、βが観測されたことがない定義です。(真のβさえ存在すると仮定してくださいββ\betaL(Y,Y^)L(Y,Y^)\mathcal{L}\left(Y, \hat{Y}\right)L(β,β^)L(β,β^)\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta、つまり、データが生成されたモデルのファミリーを知っていること。) あなたの損失があると仮定。バイアスと分散のトレードオフに直面していますよね?そのため、理論的には、いくつかの正則化を行う方が良いかもしれません。しかし、どのようにして正則化パラメーターを選択できますか?L(β,β^)=∥β−β^∥L(β,β^)=‖β−β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert 私は、係数を持つ線形回帰モデルの簡単な数値例を参照させていただき研究者の損失関数は、例えばある、‖ β - βを ‖でも、またはちょうど(β 1 - β 1 )2。実際には、これらの例で予想される損失を改善するために相互検証をどのように使用できますか?β≡(β1,β2,…,βk)β≡(β1,β2,…,βk)\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)∥β−β^∥‖β−β^‖\lVert \beta - \hat{\beta} \rVert(β1−β^1)2(β1−β^1)2(\beta_1 - \hat{\beta}_1)^2 編集:DJohnson は、この質問に関連するhttps://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdfを指摘してくれました。著者はそれを書く 技術を機械学習...予測する統制のとれた方法で提供さ Y(i)は、バイアス・分散トレードオフを作る方法を決定するためにデータ自体を使用し、及び(ii)の変数の非常に豊富なセットを介して検索を可能にし、機能フォーム。しかし、すべてはコストがかかります。一つは、常に彼らが調整されているので、ことを心に留めておく必要がありY 、彼らは(他の多くの仮定なし)のために非常に便利な保証を与えていませんβ。Y^Y^\hat{Y}Y^Y^\hat{Y}β^β^\hat{\beta} 別の関連する紙、再びDJohnsonのおかげ: http://arxiv.org/pdf/1504.01132v3.pdf。このペーパーは、私が上記で苦労していた質問に対処します。 ...既成の回帰ツリーなどの機械学習法を因果推論の問題に適用する際の基本的な課題は、交差検証に基づく正則化アプローチは通常、「グラウンドトゥルース」、つまり実際の結果の観察に依存することです。交差検定サンプル。しかし、治療効果の平均二乗誤差を最小化することが目標である場合、[11]が「因果推論の根本的な問題」と呼ぶものに遭遇します。因果効果は個々のユニットで観察されないため、直接真実があります。治療の因果効果の平均二乗誤差の不偏推定値を構築するためのアプローチを提案することにより、これに対処します。

3
リッジ回帰とPCA回帰の関係
私はウェブ上のどこかでリッジ回帰(正則化)とPCA回帰の関係を読んだことを覚えています:ハイパーパラメーターで -regularized回帰を使用している場合、場合、回帰は最小の固有値を持つPC変数。ℓ 2 λℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ → 0λ→0\lambda \to 0 なぜこれが本当ですか? これは最適化手順と関係がありますか?単純に、私はそれがOLSと同等であると予想していました。 誰かがこれに関するリファレンスを持っていますか?

1
同時L1およびL2正則化(別名エラスティックネット)を使用した線形回帰のベイジアン解釈はありますか?
ペナルティを伴う線形回帰は、係数のガウス事前分布が与えられたMAP推定値を見つけることと同等であることはよく知られています。同様に、l 1ペナルティを使用することは、事前分布としてラプラス分布を使用することと同等です。l2l2l^2l1l1l^1 とl 2の正規化の重み付き組み合わせを使用することは珍しくありません。これは、係数の事前分布に相当すると言うことができます(直感的には、そうでなければならないようです)。この分布に素敵な分析形式(ガウスとラプラシアンの混合物)を与えることができますか?そうでない場合は、なぜですか?l1l1l^1l2l2l^2


4
ニューラルネットワークで「自由度」とはどういう意味ですか?
Bishopの本「Pattern Classification and Machine Learning」では、ニューラルネットワークのコンテキストでの正則化の手法について説明しています。ただし、トレーニングプロセス中に、モデルの複雑度とともに自由度の数が増加することを説明する段落は理解できません。関連する引用は次のとおりです。 ネットワークの効果的な複雑さを制御する方法としての正規化の代替は、早期停止の手順です。非線形ネットワークモデルのトレーニングは、トレーニングデータのセットに関して定義されたエラー関数の反復的な削減に対応します。共役勾配など、ネットワークトレーニングに使用される最適化アルゴリズムの多くでは、エラーは反復インデックスの増加しない関数です。ただし、一般に検証セットと呼ばれる独立したデータに関して測定されたエラーは、多くの場合、最初は減少し、その後ネットワークが過剰になり始めると増加します。したがって、図5.12に示すように、検証データセットに関して最小のエラーのポイントでトレーニングを停止して、良好な一般化パフォーマンスを持つネットワークを取得できます。この場合のネットワークの振る舞いは、ネットワーク内の有効な自由度の観点から定性的に説明されることがあります。モデルの複雑さ。 また、トレーニングの過程でパラメーターの数が増加することも示しています。「パラメータ」とは、ネットワークの隠されたユニットによって制御される重みの数を指すと仮定していました。おそらく、正則化プロセスによって重みが大きさで増加することは防がれますが、数は変わらないので、私は間違っています。かなりの数の隠れユニットを見つけるプロセスを指しているのでしょうか? ニューラルネットワークの自由度とは何ですか?トレーニング中にどのパラメーターが増加しますか?

2
頻度と事前
Robby McKilliamは、この投稿へのコメントで次のように述べています。 頻度論者の観点から、事前知識をモデルに組み込むことができない理由はないことに注意してください。この意味で、頻繁なビューはより単純であり、モデルといくつかのデータのみがあります。モデルから事前情報を分離する必要はありません また、ここでは、@ jbowmanは、頻度が高い人はコスト/ペナルティ関数による正則化を使用し、ベイジアンはこれを事前に行うことができると言います。 頻度の高い専門家は、正則化が優れていることを認識し、最近では非常に一般的に使用しています。そして、ベイジアン事前分布は正則化として簡単に解釈できます。 だから、私の質問は、ベイジアンが事前分布として指定するものを一般に頻繁に彼らのモデルに組み込むことができますか?正則化を例にとると、コスト/ペナルティ関数は本当にモデルに統合されているのでしょうか、あるいはこれはソリューションを調整する(またユニークにする)純粋に人工的な手段ですか?

2
機能が関連付けられている場合、LassoまたはElasticNetがRidgeよりも優れている理由
150個の機能のセットがあり、それらの多くは互いに高度に相関しています。私の目標は、範囲が1〜8の離散変数の値を予測することです。サンプルサイズは550で、10倍の交差検定を使用しています。 知る限りでは、正則化方法(Lasso、ElasticNet、Ridge)の中で、Ridgeは機能間の相関がより厳密です。そのため、Ridgeを使用すると、より正確な予測が得られると予想していました。ただし、私の結果は、LassoまたはElasticの平均絶対誤差が約0.61であるのに対し、このスコアはリッジ回帰では0.97であることを示しています。これの説明は何だろうか。これは私が多くの機能を持っているからであり、Lassoは冗長な機能を取り除いて一種の機能選択を行うため、パフォーマンスが向上しますか?

1
「リラックスした投げ縄」が標準の投げ縄と異なるのはなぜですか?
我々は、データのセットで開始した場合、それに投げ縄を適用し、溶液得るβ Lを、我々は、データセットに再び投げ縄を適用することができる(X S、Y )、Sは非ゼロの集合であります指標β Lは、ソリューション、取得するβ RのL、いわゆる「緩和LASSO」ソリューション(私が間違っている場合は、正しい私を!)。溶液β L満足しなければならない条件Karush-キューン・タッカー(KKT)のための(X 、Y )(X,Y)(X,Y)(X,Y)βLβL\beta^L(XS,Y)(XS,Y)(X_S, Y)SSSβLβL\beta^LβRLβRL\beta^{RL}βLβL\beta^L(X,Y)(X,Y)(X,Y)しかし、のKKT条件の形式を考えると、これらも満たすのではないでしょうか?もしそうなら、もう一度LASSOを行う意味は何ですか?(XS,Y)(XS,Y)(X_S, Y) この質問は、「二重投げ縄」を行うか、投げ縄を2回実行することの利点ですか?

1
ペナルティ回帰における収縮パラメーターの可能な値の典型的な範囲は何ですか?
なげなわまたはリッジ回帰では、多くの場合またはαと呼ばれる収縮パラメーターを指定する必要があります。この値は、多くの場合、トレーニングデータのさまざまな値をチェックし、テストデータでR 2などの最良の結果が得られるかどうかを確認することにより、相互検証によって選択されます。チェックする値の範囲はどのくらいですか?それは(0 、1 )?λλ\lambdaαα\alphaR2R2R^2(0,1)(0,1)(0,1)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.