タグ付けされた質問 「regularization」

モデルフィッティングプロセスに追加の制約を含める(通常は複雑さのペナルティ)。過剰適合の防止/予測精度の向上に使用されます。


2
ランダム性なしでロジスティック回帰をシミュレートすることは可能ですか?
私たちは、私たちが作る意味し、ランダムずに線形回帰をシミュレートすることができの代わりに、。次に、線形モデルを当てはめると、係数は「グラウンドトゥルース」と同じになります。例を示します。Y = X β + εy=Xβy=Xβy=X\betay=Xβ+ϵy=Xβ+ϵy=X\beta+\epsilon set.seed(0) n <- 1e5 p <- 3 X <- matrix(rnorm(n*p), ncol=p) beta <- runif(p) # y <- X %*% beta + rnorm(n)*0.5 # remove the randomness y <- X %*% beta dat <- data.frame(y=y, x=X) lm.res = lm(y ~ .-1, data=dat) norm(as.matrix(lm.res$coefficients - beta)) …

1
L1、L2およびドロップアウト一般化の代替
私の大学では、金融/機械学習の研究プロジェクトに次の設定を行っています。Keras/ Theanoで次の構造の(ディープ)ニューラルネットワーク(MLP)を適用して、パフォーマンスの高い株(ラベル1)とパフォーマンスの低い株(ラベル0)。そもそも私は、実際および歴史的な評価の倍数を使用します。これはストックデータであるため、非常にノイズの多いデータが予想されます。さらに、52%を超える安定したサンプル外精度は、すでにこのドメインで良好であると見なすことができます。 ネットワークの構造: 入力として30のフィーチャを備えた高密度レイヤー Relu-Activation バッチ正規化レイヤー(それがなければ、ネットワークは部分的に収束していません) オプションのドロップアウトレイヤー 密 レル バッチ 脱落 ・・・同じ構造の更なる層 シグモイドアクティベーションの高密度レイヤー オプティマイザ:RMSprop 損失関数:バイナリクロスエントロピー 前処理のために私が行う唯一のことは、機能を[0,1]範囲に再スケーリングすることです。 今、私は通常、ドロップアウトまたはL1およびL2カーネル正則化に取り組む、典型的な過剰適合/過適合問題に直面しています。ただし、この場合、次のグラフに示すように、ドロップアウトとL1およびL2の正規化の両方がパフォーマンスに悪影響を及ぼします。 私の基本的なセットアップは次のとおりです。5レイヤーNN(入力レイヤーと出力レイヤーを含む)、レイヤーあたり60ニューロン、0.02の学習率、L1 / L2なし、ドロップアウトなし、100エポック、バッチ正規化、バッチサイズ1000。 76000の入力サンプル(ほぼバランスの取れたクラス45%/ 55%)で、ほぼ同じ量のテストサンプルに適用されました。チャートでは、一度に1つのパラメーターのみを変更しました。「Perf-Diff」とは、1に分類された株式と0に分類された株式の平均株価パフォーマンス差を意味します。これは、基本的に、最終的なコアメトリックです。(高いほど良い) l1の場合、ネットワークは基本的にすべてのサンプルを1つのクラスに分類しています。ネットワークが再びこれを実行しているためスパイクが発生していますが、25個のサンプルをランダムに正しく分類しています。したがって、このスパイクは良い結果ではなく、異常値として解釈されるべきです。 他のパラメータには次の影響があります。 私の結果をどのように改善できるかについてのアイデアはありますか?私がしている明らかなエラーはありますか、それとも正則化の結果に対する簡単な答えはありますか?トレーニング(PCAなど)の前に、何らかの機能選択を行うことをお勧めしますか? 編集:その他のパラメータ:

1
L2正則化とランダム効果の縮小
変量効果回帰の基本的な特性は、ランダムな切片の推定値が、各推定値の相対分散の関数としての応答の全体的な平均に向かって「縮小」されることです。 ρJ=τ2/(τ2+σ2/NJ)。U^j= ρjy¯j+ (1 - ρj)y¯U^j=ρjy¯j+(1−ρj)y¯\hat{U}_j = \rho_j \bar{y}_j + (1-\rho_j)\bar{y}ρj= τ2/( τ2+ σ2/ nj)。ρj=τ2/(τ2+σ2/nj).\rho_j = \tau^2 / (\tau^2 + \sigma^2/n_j). これは、ロジスティック回帰などの一般化線形混合モデル(GLMM)にも当てはまります。 その収縮は、ID変数のワンホットエンコーディングによる固定効果ロジスティック回帰よりも、またはL2正則化による収縮よりどのように優れていますか? 固定効果モデルでは、L2正規化のペナルティ変更することで収縮量を制御できますが、変量効果モデルでは、収縮量を制御できません。「目標が推論である場合は変量効果モデルを使用し、目標が予測である場合は固定効果モデルを使用する」というのは正しいでしょうか?λλ\lambda

1
変数係数は上昇し、ラムダが減少するにつれて減少します(LASSO)
LASSO(glmnet)を使用して、60以上の変数(連続およびカテゴリーの両方)で連続予測子を回帰しています。 変数トレースプロットを調べると、対数ラムダが増加すると、主要な変数の1つに実際に増加する係数があることがわかります。その後、ある時点を過ぎると、予想したように減少し始めます。 これがまぐれでないことを確認するために、私はブートストラップを使用して10モデルを実行し、非常に類似した結果を得ました。 これは可能ですか、それともデータに問題がありますか?正当な場合、変数の係数のこの傾向は、変数と応答との関係について何を教えてくれますか?

1
LASSO、リッジ、エラスティックネットで
について疑問に思う 最適なグリッドの細かさと グリッドの細かさとオーバーフィットの関係は LASSO、リッジ回帰、エラスティックネットなどの正則化手法では、 LASSOを使用した回帰モデルを500観測値のサンプルに適合させたいとします(データがありません。これは単なる例です)。私が持っていることも仮定 (A) 100と異なるグリッド間の範囲内の値λ mはiがNとλ M A X(B) 1000の異なる有するグリッドλの同じ範囲の値λは制御パラメータでありますペナルティの程度。λλ\lambdaλM I nはλmin\lambda_{min}λmは、Xがλmax\lambda_{max} λλ\lambdaλλ\lambda 質問: (A)対(B)でオーバーフィットする傾向について何か言えますか? 最適なグリッドの細かさを決定できますか?どうやって?

1
ボールへの正則化と投影
私はボールへの射影とシンプレックスへのユークリッド射影に関して正則化がどのように機能するかを理解しようとしています。l∗l∗l_* 重みベクトルをまたはボールに投影したときの意味がよくわかりません。l1l1l_1l2l2l_2 正則化の概念をプログラムで理解できます。、重みベクトルの各要素を、を適用して、小さい重みを0に駆動します。l1l1l_1signum(w) * max(0.0, abs(w) - shrinkageValue)shrinkageValue = regularizationParameter * eta 私はここでいくつかの数学が欠けていると思うので、私の質問は、ベクトルの投影を先ほど説明したプログラムにどのように変換するのですか?正則化とベクトル投影はどのように関連していますか? 編集:私はこの論文をうとしています高次元で学習するためのボールへの効率的な投影l1l1l_1

2
MLEの正則化はベイジアン手法ですか?
通常、ベイジアン統計の事前分布は、確率密度の低い解を不利にするため、正則化要因と見なすことができると言われています。 次に、MLEパラメータが次のようなこの単純なモデルが与えられた場合: argmaxμ N(y;μ,σ)argmaxμ N(y;μ,σ) argmax_{\mu} \text{ } \mathcal{N}(y; \mu, \sigma) そして、私は前のものを追加します: パラメータはMLEパラメータではありませんしかし、MAPパラメータ。argmaxμ N(y;μ,σ)N(μ;0,σ0)argmaxμ N(y;μ,σ)N(μ;0,σ0) argmax_{\mu} \text{ } \mathcal{N}(y; \mu, \sigma) \mathcal{N}(\mu; 0, \sigma_0) 質問:これは、モデルにいくつかの正則化を導入した場合、ベイズ分析を行っていることを意味しますか(点推定のみを使用している場合でも)? または、MLEまたはMAPを見つける方法が同じであるため、この時点でこの「存在論的」な区別をしても意味がありません(そうではありませんか?)?

2
LASSOまたは関連するスパース性の問題における正則化パスの意味は何ですか?
パラメータ異なる値を選択すると、異なるスパースレベルの解を得ることができます。これは、正則化パスがより速く収束できる座標を選択する方法であることを意味しますか?スパースについてよく耳にしますが、少し混乱しています。また、既存の問題の解決策について簡単に説明してもらえますか?λλ\lambdaLASSO


2
多変量ガウス対数尤度の勾配
勾配降下法でモデルのMAP推定値を見つけようとしています。私の以前は、既知の共分散行列をもつ多変量ガウスです。 概念的なレベルでは、私はこれを行う方法を知っていると思いますが、詳細についていくつかの助けを求めていました。特に、問題に対処する簡単な方法がある場合、それは特に役立ちます。 ここでは、私が何だと思う私は実行する必要があります。 各次元について、他の次元での現在の位置を指定して、条件付き分布を見つけます。 これにより、正しい平均と標準偏差を使用して、各次元の局所的な一変量ガウス分布が得られます。 勾配は、これらの単変量分布のそれぞれの導関数のベクトルである必要があると思います。 私の質問には2つの部分があります。 これは最善のアプローチですか、それとももっと簡単な方法がありますか? このルートに行く必要があると仮定すると、これらの条件付き分布を見つけるための最良の方法は何ですか?

1
SVMでラプラシアングラフを使用した多様体正則化
Matlabのサポートベクターマシン(SVM)に多様体正則化を実装しようとしています。Belkin et al。(2006)の論文の指示に従っていますが、その中に方程式があります。 f∗=argminf∈Hk∑li=1V(xi,yi,f)+γA∥f∥2A+γI∥f∥2If∗=argminf∈Hk∑i=1lV(xi,yi,f)+γA‖f‖A2+γI‖f‖I2f^{*} = \text{argmin}_{f \in H_k}\sum_{i=1}^{l}V\left(x_i,y_i,f\right)+\gamma_{A}\left\| f \right\|_{A}^{2}+\gamma_{I}\left\| f \right\|_{I}^{2} ここで、Vはある損失関数であり、γAγA\gamma_AはRHKSの関数のノルム(または周囲のノルム)の重みであり、は可能な解に平滑性条件を適用し、γIγI\gamma_Iは関数のノルムの重みです。低次元多様体(または固有ノルム)。これは、サンプリングされたMに沿って滑らかに実行されます。アンビエントレギュラライザーは問題を適切な状態にします。その存在は、多様体の仮定が低い程度に当てはまる場合、実用的な観点から本当に役立ちます。 。 それはBelkin等で示されました。(2006) 、そのf∗f∗f^*の点で拡張を認めnnn Sの点、 f∗(x)=∑ni=1α∗ik(xi,x)f∗(x)=∑i=1nαi∗k(xi,x)f^*(x)=\sum_{i=1}^{n}\alpha_i^*k(x_i,x) その決定関数クラス+1と-1を区別するのはy(x)=sign(f∗(x))y(x)=sign(f∗(x))y(x)=sign(f^*(x))です。 ここでの問題は、MATLABでLIBSVMを使用してSVMをトレーニングしようとしているが、元のコードを変更したくないため、入力データを取得する代わりに、事前に計算されたバージョンのLIBSVMを見つけ、出力グループをパラメーターとして取得したことです。 、計算されたカーネル行列と出力グループを取得し、SVMモデルをトレーニングします。私は、正規化されたカーネルマトリックス(グラムマトリックス)を使用してフィードを試行し、残りを実行させます。 カーネルを正規化する式を見つけようとしましたが、次のようになりました。カーネル行列と同じ次元を持つ恒等行列としての定義、IIIKKK G=2γAI+2γILKIG=2γAI+2γILKIG=\frac{2\gamma_AI + 2\gamma_ILK}{I} Gram=KGGram=KGGram = KG ここで、はラプラシアングラフ行列、はカーネル行列、は単位行列です。そして、は2つの行列と内積を使用して計算されます。LLLKKKIIIGramGramGramKKKGGG これがどのように計算されるかを理解するのを手伝ってくれる人はいますか?

2
切片はGLMnetでどのように計算されますか?
R以外のソフトウェアを使用して線形回帰用のGLMNETバージョンのエラスティックネットを実装してきました。糖尿病データの lassoモードでR関数glmnetと結果を比較しました。 変数の選択は、パラメーター(ラムダ)の値を変更する場合は問題ありませんが、係数の値が少し異なります。これと他の理由で、アルゴリズム全体で切片(ターゲット変数の平均と見なします)を変更しないので、現在の近似を計算するときの更新ループの切片に由来すると思います。 Trevor Hastieの記事(座標降下による一般化線形モデルの正則化パス、 7ページ、セクション2.6)で説明されています: 切片は正則化されていません。[...]ラムダのすべての値について[...] [L1制約パラメーター] しかし、この記事にもかかわらず、R関数glmnetは、正則化パスに沿った切片に異なる値を提供します(ラムダの異なる値)。傍受の値がどのように計算されるかについて誰かが手掛かりを持っていますか?

1
スパース線形回帰0ノルムと1ノルム
応答と予測子Y∈RnY∈RnY \in \Bbb R^nX=(x1,x2,⋯,xm)T∈Rn×mX=(x1,x2,⋯,xm)T∈Rn×mX = (x_1, x_2, \cdots, x_m)^T \in \Bbb R^{n \times m} 私たちが解決したい問題は argmink∈Rm(∥Y−Xk∥22+λ∥k∥0)→k0argmink∈Rm(‖Y−Xk‖22+λ‖k‖0)→k0\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - Xk \Vert_2^2 + \lambda \Vert k \Vert_0) \rightarrow k_0 ただし、これはNPハードであるため、代わりに\ text {argmin} _ {k \ in \ Bbb R ^ {m}}を解き argmink∈Rm(∥Y−Xk∥22+λ∥k∥1)→k1argmink∈Rm(‖Y−Xk‖22+λ‖k‖1)→k1\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - …

2
リッジ回帰となげなわ回帰を使用する場合。線形回帰モデルではなくこれらの手法を使用して達成できること
RidgeやLassoの回帰のような正則化された回帰手法についてもっと学ぶのを楽しみにしています。線形回帰モデルと比較して、これらの手法を使用して何が達成できるか知りたいのですが。また、どのような状況でこれらの手法を採用する必要があります。そして、これら2つの手法の違いは何ですか。これらの手法の背後にある概念と数学を理解したいと思っています。あなたの貴重な知識を共有してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.