タグ付けされた質問 「regularization」

モデルフィッティングプロセスに追加の制約を含める(通常は複雑さのペナルティ)。過剰適合の防止/予測精度の向上に使用されます。

2
リッジ回帰がLASSOよりも優れた解釈可能性を提供できないのはなぜですか?
リッジ回帰とLASSOの長所と短所についてはすでに考えています。 pppんnnんnnんnnppp リッジ回帰の場合、一般に予測可能性が高くなります。ただし、その解釈可能性はLASSOほど優れていません。 上記の説明は、機械学習/データマイニングの教科書によく見られます。しかし、私はまだ2つのことについて混乱しています。 特徴の範囲を正規化して(たとえば、0と1の間、または平均と単位の分散がゼロの場合)、リッジ回帰を実行しても、係数の絶対値を並べ替えることで特徴の重要性を知ることができます(最も重要な特徴には係数の最高絶対値)。機能を明示的に選択していませんが、リッジ回帰を使用しても解釈可能性は失われません。それと同時に、高い予測能力を実現できます。では、なぜLASSOが必要なのでしょうか。ここで何か不足していますか? LASSOは、その機能選択の性質上、推奨されますか?私の理解では、特徴選択が必要な理由は、一般化する能力と計算の容易さです。 計算を簡単にするために、いくつかのNLPタスクを実行している場合、100万個すべての機能をモデルにフィードしたくないため、最初に明らかに役に立たない機能をいくつか削除して、計算コストを削減します。ただし、LASSOの場合、特徴選択の結果(スパースベクトル)を知ることができるのは、すべてのデータをモデルにフィードした後なので、計算コストを削減するという点でLASSOのメリットはありません。予測結果を生成するためにモデルに機能のサブセット(たとえば、100万のうち500)をフィードするだけなので、予測を少し速くすることができます。 LASSOが一般化する機能に適している場合は、リッジ回帰(または他の種類の正則化)を使用して同じ目標を達成することもできます。なぜ再びLASSO(またはエラスティックネット)が必要なのですか?なぜリッジ回帰だけに固執できないのですか? 誰かがこれにいくつかの光を当ててもらえますか?ありがとう!

3
空間の任意の点に向けてL2正則化を実装する方法は?
これは、Ian Goodfellowの本「Deep Learning」で読んだものです。 ニューラルネットワークのコンテキストでは、「L2パラメータのノルムペナルティは一般的に重み減衰として知られています。この正則化戦略は、重みを原点に近づけます[...]。より一般的には、パラメータを任意の特定の点の近くに正則化できます空間内」ですが、モデルパラメータをゼロに向けて正則化するのがはるかに一般的です。(ディープラーニング、グッドフェロー他) 気になるだけです。コスト関数に正則化項を追加するだけで、この合計コストJJJを最小化することで、モデルのパラメーターを小さく保つことができることを理解しています。 J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} しかし、パラメーターを任意のポイントに導くこの正則化戦略のバージョンをどのように実装しますか?(たとえば、ノルムを5に向けたいとしましょう)

2
エラー率は正則化パラメーターラムダの凸関数ですか?
RidgeまたはLassoで正則化パラメーターlambdaを選択する場合、推奨される方法は、さまざまな値のlambdaを試し、検証セットでエラーを測定し、最後に最も低いエラーを返すlambdaの値を選択することです。 関数f(lambda)= errorがConvexである場合、私にはクリートではありません。こんな感じかな?つまり、この曲線は複数の極小値を持つことができます(これは、ラムダの特定の領域でエラーの最小値を見つけても、他の一部の領域でさらに小さなエラーを返すラムダがある可能性を排除しないことを意味します) あなたのアドバイスをいただければ幸いです。

1
LASSOでの正則化パラメーターの範囲とグリッド密度の選択
その間、私はLASSO(最小絶対収縮および選択演算子)を研究しています。正則化パラメーターの最適な値は、相互検証によって選択できることがわかりました。リッジ回帰と正則化を適用する多くの方法でも、CVを使用して最適な正則化パラメーター(ペナルティなど)を見つけることができます。今私の質問は、パラメーターの上限と下限の初期値と、シーケンスの長さを決定する方法です。 具体的には、我々はLASSO問題があると仮定 LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1 LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1 、ペナルティの最適値を見つけたいと考えていますλλ\lambda。次に、どのように我々はより低い選択することができますし、上位行きのλ∈[a=?,b=?]λ∈[a=?,b=?]\lambda \in [a=?,b=?]?これらの2つの値の間の分割数(b−a)k=?(b−a)k=?\frac{(b-a)}{k=?}?

3
変量効果モデルで正則化手法を使用できますか(すべきですか?)
正則化手法とは、投げ縄、尾根回帰、弾性網などを指します。 入院患者の滞在期間が予測される人口統計データと診断データを含むヘルスケアデータの予測モデルを考えてみましょう。一部の個人では、相関するベースライン期間中に複数のLOS観測(つまり、複数のIPエピソード)があります。 たとえば、各個人の変量効果切片項を含むエラスティックネット予測モデルを構築することには意味がありますか?

4
座標降下による投げ縄フィッティング:オープンソース実装?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 昨年休業。 座標降下による線形回帰のなげなわ正規化パスを計算できる、どの言語のオープンソース実装も存在しますか? これまでのところ私は知っています: glmnet scikits.learn 他に何かありますか?

1
と間のLASSO関係
LASSO回帰についての私の理解は、最小化問題を解決するために回帰係数が選択されることです。 minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t 実際には、これはラグランジュ乗数を使用して行われ、問題を解決します minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 λλ\lambdaとtの関係は何tttですか?ウィキペディアは、それが「データに依存する」と単純に述べているが役に立たない。 なぜ気にするのですか?まずは知的好奇心。しかし、交差検証によって\ lambdaを選択した場合の結果についても心配していλλ\lambdaます。 具体的には、n分割交差検証を行っている場合、トレーニングデータのn個の異なるパーティションにn個の異なるモデルを適合させます。次に、指定された\ lambdaの未使用データの各モデルの精度を比較しますλλ\lambda。ただし、同じ\ lambdaは、データの異なるサブセットに対してλλ\lambda異なる制約(ttt)を意味します(つまり、t=f(λ)t=f(λ)t=f(\lambda)は「データ依存」です)。 最良のバイアス精度のトレードオフを与えるtを見つけるために本当に解決したい相互検証問題ではないtttですか? 実際にこの効果のサイズの大まかなアイデアを得るには、各交差分割とに対してを計算し、結果の分布を確認します。場合によっては、暗黙の制約()が交差検証サブセット全体で大幅に変化することがあります。ここで実質的に私は変動係数を意味し。∥β∥1‖β‖1\|\beta\|_1λλ\lambdatttt>>0t>>0t>>0


3
LASSO(正則化)がどのように機能するかを本当に理解していないと統計学者がどういう意味ですか?
Lasso(正規化)に関する最近のいくつかの統計話に行ったことがありますが、ここで浮かび上がってくるポイントは、なぜLassoが機能するのか、なぜLassoがうまく機能するのかがよくわからないということです。この声明が何を指しているのかと思います。Lassoがパラメーターの縮小による過剰適合を防止することによって技術的に機能する理由は明らかですが、そのようなステートメントの背後に深い意味があるのではないかと思います。誰かアイデアはありますか?ありがとう!

4
確率行列のスパース性を誘発する正則化
L1L1L_1AAAb⃗ b→\vec{b}fA,b⃗ (x⃗ )=∥Ax⃗ −b⃗ ∥22+λ∥x⃗ ∥1fA,b→(x→)=‖Ax→−b→‖22+λ‖x→‖1f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1λ>0λ>0\lambda>0AAAb⃗ b→\vec{b}λλ\lambdax⃗ x→\vec{x} ただし、エントリが正で合計がになるという条件に従ってを最小化すると、項は効果がありません( by fiat)。結果のがスパースであることを促進するためにこの場合に機能する類似のタイプの正規化はありますか?fA,b⃗ fA,b→f_{A,\vec{b}}x⃗ x→\vec{x}111L1L1L_1∥x⃗ ∥1=1‖x→‖1=1\|\vec{x}\|_1=1L1L1L_1x⃗ x→\vec{x}

2
正則化
正則化を実行するには多くの方法があります。たとえば、、L 1、およびL 2ノルムベースの正則化です。Friedman Hastie&Tibsharaniによると、最適な正則化器は問題に依存します。つまり、真のターゲット関数の性質、使用される特定の基底、信号対雑音比、およびサンプルサイズです。L0L0L_0L1L1L_1L2L2L_2 さまざまな正則化方法の方法とパフォーマンスを比較する実証的研究はありますか?

1
Lassoは、設計行列のサイズにどのように比例しますか?
私はデザイン行列がある場合、N次元の観測の数であり、Dが、について解くの複雑さは何であるβ = argmin β 1X∈Rn×dX∈Rn×dX\in\mathcal{R}^{n\times d}nnndddLASSO、wrtnおよびd?答えは、特に感じない限り、反復数(収束)のスケーリング方法ではなく、1つのLASSO反復がこれらのパラメーターでスケーリングする方法を参照する必要があると思います。β^=argminβ12n||Xβ−y||2+λ||β||1β^=argminβ12n||Xβ−y||2+λ||β||1\hat{\beta}=\text{argmin}_{\beta}\frac{1}{2n} ||X\beta-y||^{2} + \lambda||\beta||_{1}nnnddd 私は以前のLASSOの複雑さに関する質問を読みましたが、こことここでの glmnetについての議論とは奇妙に思えます。glmnetのGLMアプローチを含む多くのアルゴリズムがあることは承知していますが、LASSOコンポーネントを親アルゴリズムに置き換えることに関する論文を書いており、特におよびnを使用したLASSOの複雑さに関する議論を含めたいと思います。基本的な非スパースの場合のglmnetの複雑さも知りたいのですが、参照されている論文は、アルゴリズム全体の複雑さが明確ではないため、少し混乱しています。dddnnn

1
ジェネリックオプティマイザーを使用したglmnet線形回帰の結果の複製
タイトルが示すように、ライブラリのLBFGSオプティマイザーを使用して、glmnet linearの結果を複製しようとしていますlbfgs。このオプティマイザーを使用すると、目的関数(L1レギュラライザー項なし)が凸型である限り、微分可能性について心配する必要なくL1レギュラライザー項を追加できます。 弾性正味線形回帰問題glmnet紙はによって与えられる ここで、X∈RN×pは計画行列であり、Y∈RのPは、観測値のベクトルであり、αは∈[0、1]弾性ネットパラメータであり、λ>0は正則化パラメーターです。オペレータ‖X‖pは、通常のLPノルムを表します。minβ∈Rp12n∥β0+Xβ−y∥22+αλ∥β∥1+12(1−α)λ∥β∥22minβ∈Rp12n‖β0+Xβ−y‖22+αλ‖β‖1+12(1−α)λ‖β‖22\min_{\beta \in \mathbb{R}^p} \frac{1}{2n}\Vert \beta_0 + X\beta - y \Vert_2^2 + \alpha \lambda \Vert \beta\Vert_1 + \frac{1}{2}(1-\alpha)\lambda\Vert\beta\Vert^2_2X∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}y∈Rpy∈Rpy \in \mathbb{R}^pα∈[0,1]α∈[0,1]\alpha \in [0,1]λ>0λ>0\lambda > 0∥x∥p‖x‖p\Vert x \Vert_p 以下のコードは関数を定義し、結果を比較するためのテストを含みます。ご覧のとおり、結果はで許容可能alpha = 1ですが、次のプロットが示すように、alpha < 1.からalpha = 1に行くにつれてエラーが悪化しalpha = 0ます(「比較メトリック」はglmnetのパラメーター推定値間の平均ユークリッド距離です)および特定の正則化パスのlbfgs)。 さて、これがコードです。可能な限りコメントを追加しました。私の質問は:なぜ私の結果はglmnetの値の結果と異なるのalpha < 1ですか?それは明らかにL2正則化用語と関係がありますが、私が知る限り、この用語を論文のとおり正確に実装しました。どんな助けでも大歓迎です! library(lbfgs) linreg_lbfgs <- function(X, y, alpha …

1
L2正則化を使用したRNNが学習を停止する
双方向RNNを使用して、不均衡な発生のイベントを検出します。ポジティブクラスはネガティブクラスの100分の1の頻度です。正則化の使用はありませんが、トレインセットでは100%、検証セットでは30%の精度を得ることができます。私はl2正則化をオンにすると、学習時間を長くする代わりに、列車セットの精度もわずか30%になり、検証セットの精度は100%になります。 データが小さすぎるのではないかと思っていたので、実験のために、以前に使用しなかったトレーニングセットとテストセットをマージしました。状況は私がl2正則化を使用するのと同じでしたが、今はそうではありません。train + testと検証の精度は30%です。 上記の実験で128の非表示のユニットと80のタイムステップを使用している場合、非表示のユニットの数を256に増やしたとき、train + testセットに再度オーバーフィットして100%の精度を得ることができますが、検証セットではまだ30%しかありません。 ハイパーパラメータのオプションをたくさん試しましたが、ほとんど結果がありませんでした。加重クロスエントロピーが問題を引き起こしている可能性があります。ある実験では、陽性クラスの加重は5です。より大きな加重を試行すると、結果の精度はしばしば20%ほど悪くなります。 LSTMセルとGRUセルを試しましたが、違いはありません。 私が得た最高の結果。256の非表示ユニットを持つ2つの非表示レイヤーを試しました。約3日間の計算と8GBのGPUメモリが必要でした。l2の正則化がオンになっているが、それほど強くない状態で再度適合し始める前に、約40-50%の精度を得ました。 私はAdamオプティマイザを使用していますが、他のオプティマイザはうまく機能しませんでした。ステートマシンを使用している間、90%の精度が得られるため、私が持っている機能で十分です。そのステートマシンでは、主な機能は他の機能のプロパティとその可変長に基づく合計としきい値処理であり、その可変長は10の場合もあれば、20のタイムスタンプで機能について話す場合もあります。 この状況で何をすべきかについての一般的なガイドラインはありますか?何も見つかりませんでした。

3
非負のリッジ回帰を実行するにはどうすればよいですか?
非負のリッジ回帰を実行するにはどうすればよいですか?非負の投げ縄はで利用できますscikit-learnが、リッジの場合、ベータの非負を強制できません。実際、負の係数を取得しています。これがなぜか誰か知っていますか? また、通常の最小二乗法でリッジを実装できますか?これを別の質問に移動しました:OLS回帰の観点からリッジ回帰を実装できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.