タグ付けされた質問 「regularization」

モデルフィッティングプロセスに追加の制約を含める(通常は複雑さのペナルティ)。過剰適合の防止/予測精度の向上に使用されます。

1
Python Scikit Learnは、ロジスティック回帰の線形分離問題をどのように処理しますか?
このようなロジスティック回帰と線形分離を扱うRからの警告に関する投稿はすでにあります。Python Scikit Learnでこの問題がすべて最適化関数のL1 / L2正則化部分によって解決されるかどうかを確認したいだけです。言い換えれば、ユーザーは無限のMLE推定警告をから取得しないと言っても安全sklearn.linear_model.LogisticRegressionですか?

2
線形回帰を正則化しましたが、今はどうですか?
LASSOを使用して線形回帰モデルの回帰パラメーターを推定し、交差検証を使用していくつかの変数をゼロに送信しました。これで、最終的なモデルが得られました。正則化はアクティブな変数にバイアスを引き起こすことが知られていますが、偽の変数を取り除くために支払うことは良い代償です。元の変数の5分の1のみを含む最終モデルを取得したら、どうすればよいですか?チャンプのように、残りの変数のバイアスに対処する必要がありますか、それとも先に進むための賢い方法がありますか?


1
エラスティックネット回帰の交差検証:テストセットでの二乗誤差対相関
弾性ネット回帰を考慮glmnet損失関数の様パラメータ化n \ ll p (それぞれ44と3000)のデータセットがあり、繰り返し11分割交差検証を使用して、最適な正則化パラメーター\ alphaおよび\ lambdaを選択しています。通常、私はテストセットのパフォーマンスメトリックとして二乗誤差を使用します。たとえば、このR二乗のようなメトリック:L_ \ text {test} = 1- \ frac {\ lVert y_ \ text {test}-\ hat \ beta_0- X_ \ text {test} \ hat \ beta \ rVert ^ 2} {\ lVert y_ \ text {test}-\ hat \ beta_0 \ rVert ^ 2}、L =12 n∥∥y−β0− …

2
glmnetがリッジ回帰に座標降下を使用するのはなぜですか?
私がそれを正しく理解している場合、glmnetは、lassoネットとelasticsネットだけでなく、Ridge回帰にも循環座標降下を使用します。 実際に簡単なクローズドフォームソリューションが利用可能な場合に、このアルゴリズムを使用すると、結果がわずかに不正確になることがあります。 事前にどうもありがとうございました!

1
と正規化のバイアスと分散のプロパティ
線形回帰でから正規化に移行する場合、バイアスまたは分散の増加が予想されますか?バイアスはフィッティング不足の兆候であり、分散はフィッティング過剰の兆候であることに注意してください。定数λを想定します。L2L2L^2L1L1L^1 ここで大まかな目安を探しています。それがなく、答えが私が説明していない他のいくつかの要因に依存する場合は、説明してください。

2
なぜすべてのパラメータを同じように正則化するのですか?
私の質問は、線形回帰とロジスティック回帰の正則化に関するものです。私は現在、Coursera でAndrew Ngの機械学習コースの第3週を行っています。過剰適合が一般的な問題になる可能性があることを理解しています。また、正規化によって過剰適合を減らす方法について直観があります。私の質問は、さまざまな方法でさまざまなパラメーターを正則化することによってモデルを改善できるかどうかです。 例: フィットしようとしているとしましょう w0+w1x1+w2x2+w3x3+w4x4w0+w1x1+w2x2+w3x3+w4x4w_0 + w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4。この質問は、なぜ私たちが高w1w1w_1 高いと罰するのと同じ方法で値 w2w2w_2 値。 私たちの機能について何も知らない場合 (x1,x2,x3,x4)(x1,x2,x3,x4)(x_1,x_2,x_3,x_4) 構築された場合、正則化を行うときはすべて同じように扱うことが理にかなっています。 w1w1w_1 価値は、高値と同じくらいの「ペナルティ」 w3w3w_3 値。 しかし、追加情報があるとしましょう。最初は2つの機能しかなかったとします。 x1x1x_1 そして x2x2x_2。ラインがトレーニングセットに適合していなかったため、より波状の決定境界が必要だったため、x3=x21x3=x12x_3 = x_1^2 そして x4=x32x4=x23x_4 = x_2^3。これで、より複雑なモデルを使用できるようになりますが、モデルが複雑になるほど、モデルをトレーニングデータに過剰適合させるリスクが高まります。したがって、コスト関数の最小化とモデルの複雑さの最小化の間でバランスをとる必要があります。さて、より高い指数を表すパラメータ(x3x3x_3、 x4x4x_4)モデルの複雑さが大幅に増大しています。だから私たちは高額に対してもっとペナルティを課すべきではないw3w3w_3、 w4w4w_4 私たちが高いと罰するよりも価値 w1,w2w1,w2w_1,w_2 値?

2
LassoおよびRidge調整パラメーターのスコープ
リッジとラッソの線形回帰では、重要なステップはチューニングパラメーターラムダを選択することです。多くの場合、ログスケールで-6-> 4のグリッド検索を使用します。これはリッジでうまく機能しますが、ラッソでは次数を考慮する必要があります出力yの大きさの?たとえば、出力yがナノスケール(-9)の場合、ログラムダの検索範囲は-15-> -5になります。 すべての入力パラメータは正規化され、それらは-3,3の中にあります
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.