タグ付けされた質問 「regularization」

モデルフィッティングプロセスに追加の制約を含める(通常は複雑さのペナルティ)。過剰適合の防止/予測精度の向上に使用されます。

2
リッジ回帰における「行列反転の数値的安定性」の明快な説明とオーバーフィットの低減におけるその役割
私は最小二乗回帰問題で正則化を使用できることを理解しています w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] そして、この問題は次のような閉じた形の解決策を持っています: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. 2番目の方程式では、正則化はX T Xの対角にを追加するだけであることがわかります。これは、行列反転の数値的安定性を改善するために行われます。λλ\lambdaXTXXTX\boldsymbol{X}^T\boldsymbol{X} 数値の安定性に関する私の現在の「粗末な」理解は、関数がより「数値的に安定」すると、その出力はその入力のノイズの影響をあまり受けなくなるということです。数値安定性の向上というこの概念を、過剰適合の問題をどのように回避/軽減するかという全体像に関連付けるのが困難です。 私はウィキペディアや他のいくつかの大学のウェブサイトを見てみましたが、彼らはなぜこれがそうなのかを深く説明していません。

1
線形回帰では、なぜ正則化によってパラメーター値もペナルティになるのですか?
現在、リッジ回帰を学習しており、より複雑なモデルのペナルティ化(またはより複雑なモデルの定義)について少し混乱しました。 私が理解していることから、モデルの複雑度は必ずしも多項式次数と相関しているわけではありません。つまり、2 + 3 + 4 x2+ 5 x3+ 6 x42+3+4x2+5x3+6x4 2 + 3+ 4x^2 + 5x^3 + 6x^4は、5 x 5よりも複雑なモデルです。5 ×55x5 5x^5 そして、正則化のポイントはモデルの複雑さを低く保つことであることを知っています。たとえば、5次多項式f(x ; w )= w0+ w1x + w2バツ2+ w3バツ3+ w4バツ4+ w5バツ5f(x;w)=w0+w1x+w2x2+w3x3+w4x4+w5x5 f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5 0であるパラメーターが多いほど良いです。 しかし、私が理解していないのは、それが同じ次数の多項式である場合、より低いパラメーター値のペナルティが少なくなるのはなぜですか?だからなぜでしょう: …

1
正則化線形対RKHS回帰
私はRKHS回帰と線形回帰の正則化の違いを研究していますが、両者の決定的な違いを理解するのに苦労しています。 入力-出力ペア所与の、Iは、関数推定するFを(⋅ )次のように F (X )≈ U (X )= M Σ iは= 1 α I K (Xは、xは私は)、 ここで、K (⋅ 、⋅ )はカーネル関数です。係数α mは解くことによってのいずれかで見つけることができる 分(x私、y私)(xi,yi)(x_i,y_i)f(⋅ )f(⋅)f(\cdot)f(X )≈ U (X )= Σi = 1メートルα私K(x 、x私)、f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}K(⋅ 、⋅ )K(⋅,⋅)K(\cdot,\cdot)αmαm\alpha_m ここで、表記の一部乱用、とI、J「カーネル行列の番目のエントリKであるK(XI、XのJ)。これは、得られる α*=(K+λNI)-1Yを。 または、問題を通常のリッジ回帰/線形回帰の問題として扱うこともできます。 minα∈Rn1n∥Y−Kα∥2Rn+λαTKα,minα∈Rn1n‖Y−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}i,ji,ji,jKKKK(xi,xj)K(xi,xj){\displaystyle K(x_{i},x_{j})} α∗=(K+λnI)−1Y.α∗=(K+λnI)−1Y.\begin{equation} \alpha^*=(K+\lambda …

4
正則化:なぜ1 / 2mを掛けるのですか?
で週3講義ノートのアンドリュー・ウのコーセラ機械学習クラスは、この用語は、正則化を実装するためのコスト関数に追加されます。 J+(θ)=J(θ)+λ2m∑j=1nθ2jJ+(θ)=J(θ)+λ2m∑j=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 講義ノートには次のように書かれています: また、すべてのシータパラメータを1つの合計で正則化することもできます。 minθ 12m [∑i=1m(hθ(x(i))−y(i))2+λ ∑j=1nθ2j]minθ 12m [∑i=1m(hθ(x(i))−y(i))2+λ ∑j=1nθj2]min_\theta\ \dfrac{1}{2m}\ \left[ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda\ \sum_{j=1}^n \theta_j^2 \right] は後でニューラルネットワークの正則化項に適用されます。12m12m\frac 1 {2m} 正規化されたロジスティック回帰のコスト関数は次のとおりであることを思い出してください。 J(θ)=−1m∑i=1m[y(i) log(hθ(x(i)))+(1−y(i)) log(1−hθ(x(i)))]+λ2m∑j=1nθ2jJ(θ)=−1m∑i=1m[y(i) log⁡(hθ(x(i)))+(1−y(i)) log⁡(1−hθ(x(i)))]+λ2m∑j=1nθj2J(\theta) = - \frac{1}{m} \sum_{i=1}^m [ y^{(i)}\ \log (h_\theta (x^{(i)})) + (1 - y^{(i)})\ …

1
不確定な方程式系にリッジ回帰を適用しますか?
場合、球状制限を課す最小二乗問題の値にのように書くことができる for the overdetermined system。\ | \ cdot \ | _2は、ベクトルのユークリッドノルムです。y=Xβ+ey=Xβ+ey = X\beta + eδδ\deltaββ\betamin ∥y−Xβ∥22s.t. ∥β∥22≤δ2min⁡ ‖y−Xβ‖22s.t.⁡ ‖β‖22≤δ2\begin{equation} \begin{array} &\operatorname{min}\ \| y - X\beta \|^2_2 \\ \operatorname{s.t.}\ \ \|\beta\|^2_2 \le \delta^2 \end{array} \end{equation}∥⋅∥2‖⋅‖2\|\cdot\|_2 \ betaの対応する解ββ\betaは、\ begin {equation} \ hat {\ beta} = \ left(X ^ TX + \ lambda …

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
過剰適合を検出する手法
データサイエンスの職に就職の面接を受けました。インタビュー中に、モデルが適合しすぎないようにするために何をすべきか尋ねられました。私の最初の答えは、モデルのパフォーマンスを評価するために交差検証を使用することでした。しかし、インタビュアーは、交差検証でさえ完全に過剰適合を特定することはできないと述べました。次に、正則化について述べましたが、インタビュアーは、これが過剰適合を減らすのに役立つ可能性がある(私は同意する)が、それを検出することはできないと述べました。モデルが過剰適合していないことを確認するために使用できる他の手法はありますか?

1
ディープニューラルネットワークの大部分を実際に正規化するには、早期停止とドロップアウトで十分ですか?
非常に多くの正則化手法があり、すべての組み合わせを試すのは現実的ではありません。 l1 / l2 最大ノルム 脱落 早期停止 ... ほとんどの人はドロップアウトと早期停止の組み合わせに満足しているようです。他の手法を使用することが理にかなっているケースはありますか? たとえば、疎なモデルが必要な場合は、l1正則化を少し追加できます。それ以外に、他の正則化手法を散布することを支持する強力な議論はありますか? フリーランチなしの定理について知っています。理論的には正則化手法のすべての組み合わせを試す必要がありますが、パフォーマンスが大幅に向上しない場合は、試す価値はありません。

1
LARSアルゴリズムからのLASSO正則化パラメーター
彼らの独創的な論文'Least Angle Regression'で、Efron らは、完全なLASSO正則化パスを計算できるようにするLARSアルゴリズムの簡単な修正について説明しています。 私はこのバリアントを正常に実装し、通常、出力パスをステップ数(LARSアルゴリズムの連続反復)または回帰係数のノルム()ます。l1l1l_1∥β∥1‖β‖1\Vert \beta \Vert_1 それでも、そこにあるほとんどのパッケージは、LASSOペナルティ係数観点から正則化パスを提供しているようです(たとえば、「mode」引数を使用してさまざまな表現を切り替えることができるLARSのLARS)。λλ\lambda 私の質問は、ある表現から別の表現に切り替えるために使用されるメカニズムは何ですか?私はそれに関連するさまざまな質問を見てきました(より具体的には、不等式制約を適切なペナルティ用語)。満足のいく答えは見つかりませんでした。λ ‖ β ‖ 1∥β∥1≤t‖β‖1≤t\Vert \beta \Vert_1 \leq tλ∥β∥1λ‖β‖1\lambda \Vert \beta \Vert_1 [編集] 必要な変換を実行するいくつかのMATLABコードの内部を調べました。各LARSステップ、これは計算方法のようです。λkkkλλ\lambda λ(k)=max(2|XTy|), for k=1λ(k)=max(2|XTy|), for k=1 \lambda(k) = \max( 2 \vert X^T y \vert ),\ \ \ \text{for } k=1 λ(k)=median(2|XTAkrAk|), ∀k>1λ(k)=median(2|XAkTrAk|), ∀k>1 \lambda(k) = \text{median}( 2 \vert X_{\mathcal{A}_k}^T …

1
MATLABのlassoがRのglmnetよりもはるかに遅いのはなぜですか(10分から1秒まで)。
MATLABの関数lassoは比較的遅いことがわかりました。私は多くの回帰問題を実行しますが、通常は1から100の予測子と200から500の観測です。場合によっては、投げ縄が非常に遅いことが判明しました(回帰問題を解決するには数分かかりました)。これは、予測子が高度に相関している場合(たとえば、大気モデルの隣接するグリッドポイントでの気温時系列)であることがわかりました。 以下の例のパフォーマンスをmatlabとRで比較しました。 yは163要素(観測値を表す)の予測ベクトルであり、xは100行の予測子行列であり、yの観測値に対応する163観測値です。以下のように、MATLAB関数lassoを適用しました。 [beta_L,stats]=lasso(x,y,'cv',4); Rでも同じで、glmnetを使用します。 fit.lasso=cv.glmnet(predictor.ts,predictand.ts,nfolds=4) MATLABとRはどちらも座標降下アルゴリズムに基づいています。lassoとglmnetの両方のラムダ値の数のデフォルト値は100です。座標降下の収束しきい値は、MATLABでは既定で10 ^ -4であり、R(10 ^ -7)ではさらに低くなっています。 私のコンピューターではR関数が1秒かかります。Matlabは数分かかりますが、ほとんどの計算時間は座標降下アルゴリズムで費やされます。 予測子の相関性が低い場合(数値大気モデルのさまざまな変数タイプなど)、Matlabの投げ縄はそれほど遅くはありませんが、Rの1秒に比べて〜30秒かかります)。 matlab lassoは本当にglmnetよりも非効率的ですか、それとも何かを見逃していますか?

1
xgboostでのツリーの複雑さの定義
xgboostアルゴリズムについて調査し、ドキュメントを調べました。 このアプローチでは、ツリーは複雑さの定義を使用して正則化されます。 ここで、とはパラメーターで、は末端の葉とは各葉のスコアです。Ω(f)=γT+12λ∑j=1Tw2jΩ(f)=γT+12λ∑j=1Twj2 \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 γγ\gammaλλ\lambdaTTTwjwjw_j これは複雑さをどのように定義するのでしょうか?ターミナルノードの数であるは、私には自然に思えます。しかし、最終スコアの合計は2乗されますか?TTT 多分オーバーフィッティングを意味します。非常に大きなスコアがあまりにも多くの信頼を与えることを意味しますか?弱い学習者を取得するために選択されていますか?この複雑度関数の選択についての自然な説明は何ですか?

1
エラスティックネット回帰におけるラムダの範囲
\def\l{|\!|} 弾性ネット回帰が与えられた minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 クロス検証のために適切な範囲の\ lambdaをどのように選択できλλ\lambdaますか? でα=1α=1\alpha=1の場合(リッジ回帰)式 dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} 各ラムダに同等の自由度を与えるために使用でき(ここでsjsjs_jはXの特異値ですXXX)、自由度は適切な範囲で選択できます。 ではα=0α=0\alpha=0の場合(なげなわ)私たちが知っていること λ>λmax=maxj|∑tytXtj|λ>λmax=maxj|∑tytXtj|\lambda > \lambda_{\textrm{max}} = \max_j|\sum_t y_t X_{tj}| 結果として、すべてのbjbjb_jはゼロになり、λλ\lambdaは(0、\ lambda_ \ textrm {max})の範囲で選択できます(0,λmax)(0,λmax)(0, \lambda_\textrm{max})。 しかし、どのように混合ケースを処理するのですか?

1
要約されたデータからの正規化適合:パラメーターの選択
私の以前の質問に続いて、リッジ回帰の正規方程式の解は次のように与えられます: β^λ=(XTX+λI)−1XTyβ^λ=(XTX+λI)−1XTy\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty 正則化パラメーターを選択するためのガイダンスを教えてください。また、対角のため、観測数で育つ、必要がありますまたの関数である?λλ\lambdaXTXXTXX^TXmmmλλ\lambdammm


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.