統計とビッグデータ regularization

6

スパースモデルのL1ノルムを選ぶ理由

私は線形回帰に関する本を読んでいます。L1とL2の規範についての文章があります。私はそれらを知っていますが、スパースモデルのL1ノルムの理由を理解していないだけです。誰かが簡単な説明を与えることができますか？

97 regression lasso regularization ridge-regression

3

回帰分析のなげなわとは何ですか？

私は投げ縄の非技術的な定義と、それが何のために使用されているかを探しています。

81 regression lasso regularization shrinkage

3

なげなわが変数選択を提供するのはなぜですか？

Elements of Statistics Learningを読んでいますが、なぜLassoが変数選択を提供し、リッジ回帰が提供しないのかを知りたいと思います。どちらの方法も、残差平方和を最小化し、パラメーター可能な値に制約がありますββ\beta。投げ縄の場合、制約は||β||1≤t||β||1≤t||\beta||_1 \le t、尾根のためにそれがあるのに対し||β||2≤t||β||2≤t||\beta||_2 \le t、いくつかのためにttt。私は本でダイヤモンド対楕円の絵を見ましたが、なぜ投げ縄が制約領域の角に当たることができるかについていくつかの直感があります。しかし、私の直感はかなり弱く、私は確信していません。見やすいはずですが、なぜそうなのかわかりません。だから、私は数学的な正当化、または残差平方和の輪郭が角に当たる可能性が高い理由の直感的な説明を探していると思います。| β | | 1||β||1||β||1||\beta||_1制約領域（一方、制約が場合、この状況は起こりそうにありません||β||2||β||2||\beta||_2）。

76 regression feature-selection lasso regularization

5

平易な英語の正則化とは何ですか？

他の記事とは異なり、このテーマのウィキペディアのエントリは、数学以外の人（私のような）には読めないことがわかりました。ルールの少ないモデルを好むという基本的な考え方を理解しました。私が得られないのは、ルールのセットからどのようにして「正規化スコア」に到達し、それを使用してモデルを最小から最大のオーバーフィットにソートできるかということです。簡単な正則化方法を説明できますか？統計取引システムの分析のコンテキストに興味があります。正則化を適用して次の2つの予測モデルを分析できるかどうか、どのように説明できるかを説明していただければ幸いです。モデル1-次の場合に価格が上がる： exp_moving_avg（price、period = 50）> exp_moving_avg（price、period = 200）モデル2-価格が上がる場合：価格[n] <価格[n-1] 10回連続 exp_moving_avg（price、period = 200）上がるしかし、私はあなたがどのように正則化を行っているのかを知ることにもっと興味があります。それを説明するためのより良いモデルを知っているなら、そうしてください。

74 regularization

6

L2正則化はガウス事前分布と同等です

私はこれを読み続け、直感的にこれを見ることができますが、L2の正則化から分析的にガウス事前分布であると言うにはどうすればよいですか？L1がラプラシアンの事前分布と同等であることも同じです。それ以上の参照は素晴らしいでしょう。

56 regression references regularization

2

収縮が働くのはなぜですか？

モデル選択の問題を解決するために、いくつかの方法（LASSO、リッジ回帰など）が予測変数の係数をゼロに縮小します。これが予測能力を向上させる理由の直感的な説明を探しています。変数の実際の効果が実際に非常に大きかった場合、パラメーターを縮小しても予測が悪化しないのはなぜですか？

55 lasso regularization ridge-regression intuition shrinkage

7

正則化用語が（乗算などの代わりに）コスト関数に*追加*されるのはなぜですか？

正則化が使用されるたびに、次のコスト関数のように、コスト関数に追加されることがよくあります。これは、コスト関数とは、誤差を最小化（左項）し、同時に係数の大きさ（右項）を最小化（または、少なくとも2つの最小化のバランスをとる）することを意味します。J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 私の質問は、なぜこの正則化用語α∥θ∥22α‖θ‖22\alpha\|\theta\|_2^2が元のコスト関数に追加され、乗算されないか、正則化のアイデアの背後にある動機の精神を保持する何かですか？単に用語を追加するだけで十分に単純であり、これを分析的に解決することができるのか、それとももっと深い理由があるのか？

51 regularization

6

リッジ回帰は高次元（）では役に立たないでしょうか？OLSはどのようにオーバーフィットに失敗しますか？

予測子とサンプルサイズ古き良き回帰問題を考えます。通常の知恵は、OLS推定器がオーバーフィットし、一般的にリッジ回帰推定器よりも優れていることです：クロス検証を使用して最適な正則化パラメーターを見つけるのが標準です。ここでは、10倍のCVを使用します。清澄化更新：とき、Iは"最小ノルムOLSの推定"を理解することによって与えられる"OLS推定量"によってpppβ = （X ⊤ X + λ I ）- 1 X ⊤ Y 。λ N < P β OLS = （X ⊤ X ）+ X ⊤ Y = X + Y 。nnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdan<pn<pn1000yyyp=50<np=50<np=50npppp=1000p=1000p=1000λ→0λ→0\lambda\to 0は、最適なリッジ回帰と同等の性能を発揮します。λλ\lambda それはどのように可能であり、私のデータセットについて何と言っていますか？明白な何かを見逃していますか、それとも本当に直観に反していますか？両方がよりも大きいとすると、と間に質的な違いはありますか？p = 1000 np=100p=100p=100p=1000p=1000p=1000nnn 最小ノルムOLSソリューションはどのような条件下でオーバーフィットしませんか？n<pn<pn<p 更新：コメントに不信感があったため、を使用した再現可能な例を次に示しglmnetます。私はPythonを使用しますが、Rユーザーはコードを簡単に変更できます。 %matplotlib notebook import numpy …

50 cross-validation regularization overfitting ridge-regression shrinkage

6

最新の統計/機械学習で多重共線性がチェックされないのはなぜですか

従来の統計では、モデルの構築中に、分散インフレーション係数（VIF）の推定などの方法を使用して多重共線性をチェックしますが、機械学習では、代わりに特徴選択に正則化を使用し、特徴が相関しているかどうかをチェックしないようですまったく。なぜそうするのですか？

44 regression machine-learning multicollinearity regularization vif

3

ロジスティック回帰の正則化方法

Ridge、Lasso、ElasticNetなどの方法を使用した正則化は、線形回帰では非常に一般的です。私は次のことを知りたかったです：これらの方法はロジスティック回帰に適用できますか？その場合、ロジスティック回帰に使用する方法に違いはありますか？これらの方法が適用できない場合、ロジスティック回帰はどのように正規化されますか？

42 regression logistic regularization

1

ニューラルネットワーク：重量変化の運動量と重量減衰

Momentumは、連続した反復での重量変化の変動を小さくするために使用されます。αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), ここではエラー関数、 -重みのベクトル学習率。E(w)E(w)E({\bf w})ww{\bf w}ηη\eta 重量減衰は、重量の変化にペナルティを与えます。λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i 問題は、逆伝播中に両方のトリックを組み合わせることが理にかなっているか、そしてそれがどのような効果をもたらすのか？ Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i

41 neural-networks optimization regularization gradient-descent

5

リッジ回帰ソリューションの導出方法

リッジ回帰の解の導出にいくつかの問題があります。正則化用語のない回帰ソリューションを知っています： β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

40 regression least-squares regularization ridge-regression

3

交差検証を使用する場合の1つの標準エラールールの経験的正当化

par約を支持する1つの標準エラールールの使用を正当化する実証研究はありますか？明らかに、データのデータ生成プロセスに依存しますが、データセットの大規模なコーパスを分析するものは非常に興味深い読み物です。「1つの標準エラールール」は、相互検証（またはより一般的にはランダム化ベースの手順）を通じてモデルを選択するときに適用されます。場合、がよりも「より複雑」であるように、複雑さパラメーターによってインデックス付けされたモデルを考慮すると仮定します。さらに、クロス検証などのランダム化プロセスによってモデル品質を評価するとします。してみましょうの「平均」の品質表す例えば、多くのクロスバリデーションの実行間の平均のアウトバッグ予測誤差を。この量を最小限に抑えたい。MτMτM_\tauτ∈Rτ∈R\tau\in\mathbb{R}MτMτM_\tauMτ′Mτ′M_{\tau'}τ>τ′τ>τ′\tau>\tau'MMMq(M)q(M)q(M)MMM ただし、品質尺度はランダム化手順に基づいているため、ばらつきがあります。ましょ品質の標準誤差を表すランダム実行横切って、例えば、のアウトオブバッグ予測誤差の標準偏差クロスバリデーション実行オーバー。s(M)s(M)s(M)MMMMMM 次に、モデルを選択します。ここで、は次のような最小のです。MτMτM_\tauττ\tauττ\tau q(Mτ)≤q(Mτ′)+s(Mτ′),q(Mτ)≤q(Mτ′)+s(Mτ′),q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}), ここで、は（平均して）最良のモデルインデックスを付けます。τ′τ′\tau'q(Mτ′)=minτq(Mτ)q(Mτ′)=minτq(Mτ)q(M_{\tau'})=\min_\tau q(M_\tau) つまり、ランダム化手順の中で、最良のモデルM _ {\ tau '}よりも1つの標準誤差だけ悪い、最も単純なモデル（最小の ττ\tau）を選択します。Mτ′Mτ′M_{\tau'} この「1つの標準エラールール」が次の場所で参照されていることを発見しましたが、明示的に正当化することはありません。 Breiman、Friedman、Stone＆Olshenによる分類および回帰木の 80ページ（1984年） Tibshirani、Walther＆Hastieによるギャップ統計によるデータセット内のクラスター数の推定のページ415 （JRSS B、2001）（Breiman et al。を参照） Hastie、Tibshirani、Friedmanによる統計学習の要素のページ61および244 （2009） Hastie、Tibshirani、Wainwrightによる統計的学習のスパース性のページ13 （2015）

39 cross-validation model-selection regularization

7

なぜ正則化はデータに対するディープニューラルネットの飢えを解決しないのですか？

一般にニューラルネットワーク、特にディープニューラルネットワークのコンテキストで頻繁に発生する問題は、「データを大量に消費する」ことです。つまり、大きなデータセットがないとうまく機能しません。ネットワークのトレーニングに使用します。私の理解では、これはNNet、特にディープNNetには多数の自由度があるという事実によるものです。そのため、モデルとして、NNetには非常に多数のパラメーターがあり、モデルのパラメーターの数がトレーニングデータポイントの数に比べて大きい場合、オーバーフィットする傾向が増加します。しかし、なぜこの問題は正則化によって解決されないのでしょうか？私の知る限り、NNetsはL1とL2の正則化を使用でき、ネットワーク内のパラメーターの数を減らすことができるドロップアウトのような独自の正則化方法もあります。節約を強制し、ネットワークのサイズを制限するような正則化方法を選択できますか？私の考えを明確にするために：データをモデル化するために大きなディープNNetを使用しているが、データセットは小さく、実際には線形モデルでモデル化できるとしましょう。次に、1つのニューロンが線形回帰をシミュレートし、他のすべてのニューロンがゼロに収束するように、ネットワークの重みが収束しないのはなぜですか？なぜ正規化がこれに役立たないのですか？

37 neural-networks deep-learning regularization

2

予測のみに関心がある場合、なぜ隆線の上で投げ縄を使用するのですか？

統計学習の概要の 223ページで、著者はリッジ回帰となげなわの違いをまとめています。「バイアス、分散、およびMSEの観点から、投げ縄がリッジ回帰を上回る傾向がある」場合の例を示します（図6.9）。なげなわが望ましい理由を理解しています。多くの係数を0に縮小し、結果としてシンプルで解釈可能なモデルになるため、スパースソリューションになります。しかし、予測のみに関心がある場合にリッジをどのように上回ることができるかはわかりません（例でMSEが大幅に低下するのはどうですか？）。リッジでは、多くの予測子が応答にほとんど影響を与えない場合（少数の予測子が大きな効果を持つ場合）、それらの係数はゼロに非常に近い小さな数に単純に縮小されません... ？それでは、なぜ最終モデルは投げ縄よりもパフォーマンスが悪いのでしょうか？

37 machine-learning prediction lasso regularization ridge-regression

タグ付けされた質問 「regularization」

タグ付けされた質問「regularization」