タグ付けされた質問 「regularization」

モデルフィッティングプロセスに追加の制約を含める(通常は複雑さのペナルティ)。過剰適合の防止/予測精度の向上に使用されます。

1
glmnetがZou&Hastieのオリジナルペーパーの「素朴な」弾性ネットを使用するのはなぜですか?
β *=(1+λ2) β。L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. しかし、その後のglmnet論文Friedman、Hastie、&Tibshirani(2010)座標降下による一般化線形モデルの正則化パスは、この再スケーリングを使用せず、次のような簡単な脚注しかありませんでした。 Zou and Hastie(2005)は、このペナルティを単純なエラスティックネットと呼び、エラスティックネットと呼ばれる再スケーリングされたバージョンを好みました。ここでこの区別を削除します。 そこ(またはHastie et al。の教科書のいずれか)にはこれ以上の説明はありません。やや不可解です。著者は、それがあまりにもアドホックだと考えたため、再スケーリングを省いたのですか?さらなる実験でパフォーマンスが悪化したためですか?GLMケースに一般化する方法が明確ではなかったからですか?何も思いつきません。しかし、いずれにせよglmnetそれ以降、このパッケージは非常に人気を博したため、最近ではZou&Hastieからのリスケーリングを使用している人はいないようで、ほとんどの人はおそらくこの可能性に気付いていません。 質問:結局のところ、これは良いアイデアですか、悪いアイデアですか? でglmnetパラメータ化、再スケーリングゾウ&Hastieはする必要がありますβ^∗=(1+λ(1−α))β^.β^∗=(1+λ(1−α))β^.\hat\beta^* = \big(1+\lambda(1-\alpha)\big)\hat\beta.

3
「正規化」という用語の由来
生徒に概念を紹介するとき、用語の由来を教えてくれるのが楽しいことがよくあります(たとえば、「回帰」は興味深い起源を持つ用語です)。統計/機械学習で「正規化」という用語の歴史/背景を明らかにすることはできませんでした。 それでは、正則化という用語の起源は何ですか?

2
なげなわペナルティが二重指数関数(ラプラス)事前に等しいのはなぜですか?
回帰パラメーターベクトルのLasso推定値は、各事前分布が二重指数分布(ラプラス分布とも呼ばれる)であるBBBの事後モードと同等であることを多くの参考文献で読みました。BBBBiBiB_i 私はこれを証明しようとしましたが、誰かが詳細を具体化できますか?

6
なぜ重みが小さくなると正則化のモデルが単純になるのですか?
私は1年ほど前にAndrew Ngの機械学習コースを修了し、現在、ロジスティック回帰の仕組みとパフォーマンスを最適化する手法について高校数学の調査を書いています。これらの手法の1つは、もちろん正規化です。 正則化の目的は、モデルを単純化するという目標を含めるようにコスト関数を拡張することにより、過剰適合を防ぐことです。これは、正方化パラメーターを掛けた二乗された各重みをコスト関数に追加することにより、重みのサイズにペナルティを課すことで実現できます。 これで、機械学習アルゴリズムは、トレーニングセットの精度を維持しながら、重みのサイズを小さくすることを目指します。アイデアは、データを一般化するモデルを作成できる中間点に到達し、それほど複雑ではないためにすべての確率的ノイズに適合しようとしないというものです。 私の混乱は、私たちがウェイトのサイズにペナルティを科す理由ですか?ウェイトが大きいほどより複雑なモデルが作成され、ウェイトが小さいほどよりシンプルな/より滑らかなモデルが作成されるのはなぜですか?Andrew Ngは、講義で説明を教えるのは難しいと主張していますが、私は今この説明を探していると思います。 Ng教授は、モデルの次数が低下するように、新しいコスト関数によってフィーチャの重み(x ^ 3およびx ^ 4)がゼロになる傾向がある例を実際に示しましたが、これは完全なものではありません説明。 私の直感では、指数が小さいものは指数が小さいものよりも、指数が大きいものの方が重みが小さくなる傾向があります(重みの小さい特徴は関数の基礎に似ているため)。重みが小さいほど、高次のフィーチャへの「寄与」が小さくなります。しかし、この直感はあまり具体的ではありません。

2
「ダブル投げ縄」を行うか、投げ縄を2回実行する利点
元々の変数セット(S1など)で投げ縄を実行し、S2という名前のスパースセットを取得してから、セットS2で再度投げ縄を実行してセットS3を取得する、投げ縄を2回使用する方法(ダブル投げ縄など)を聞いたことがあります。これに方法論的な用語はありますか?また、投げ縄を2回行う利点は何ですか?

3
Lassoで特定された変数のサブセットでOLS推定よりもLasso推定を使用する理由
なげなわ回帰、最適なソリューション(最小テストエラーなど)でk個の特徴が選択され、その結果、帽子{\ベータ} \ \帽子{\ベータ} ^ {投げ縄} = \左(\ハット{\ベータ} _1 ^ {投げ縄} \帽子{\ベータ} _2 ^ {投げ縄}、... _k ^ {lasso}、0、... 0 \ right)。L(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) 我々はそれを知っている(β^lasso1,β^lasso2,...,β^lassok)(β^1lasso,β^2lasso,...,β^klasso)\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right)です\ left(\ beta_1、\ beta_2、...、\ beta_k \ right)の偏った推定値な(β1,β2,...,βk)(β1,β2,...,βk)\left(\beta_1,\beta_2,...,\beta_k\right)ので、なぜ「合理的」ではなくβ^lassoβ^lasso\hat{\beta}^{lasso}を最終解として採用するのですか?β^new=(β^new1:k,0,...,0)β^new=(β^1:knew,0,...,0)\hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right)、ここでβ^new1:kβ^1:knew\hat{\beta}_{1:k}^{new}は、部分モデルLnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y)。(X1:kX1:kX_{1:k}は、選択されたk個のフィーチャに対応するXの列を示します)。XXXkkk 手短に言えば、変数選択だけでなく、選択した特徴の推定をOLSに任せるのではなく、特徴選択とパラメーター推定の両方にLassoを使用するのはなぜですか? (また、「Lassoは最大でnnn機能を選択できる」とはどういう意味ですか?nnnはサンプルサイズです。)

5
上位主成分は、従属変数の予測力をどのように保持できますか(または、より良い予測につながりますか)?
私は回帰実行していると仮定Y〜XY〜バツY \sim X。上位kkk主成分を選択することにより、モデルは予測力を保持するのはなぜですか?YバツバツXYYY 次元削減/機能選択の観点から、が上位固有値を持つの共分散行列の固有ベクトルであり、が上位主成分である場合、最大の分散で。それにより、特徴の数をkに減らして、予測力の大部分を保持することができます。 X K X 、V 1、XのV 2。。。X v k k kv1、v2、。。。vkv1、v2、。。。vkv_1, v_2, ... v_kXバツXkkkXv1,Xv2...Xvkバツv1、バツv2。。。バツvkXv_1, Xv_2 ... Xv_kkkkkkk しかし、なぜ上位コンポーネントが予測力を保持するのでしょうか?YkkkYYY 一般的なOLSについて話す場合、フィーチャ分散が最大である場合、が最も予測力があることを示唆する理由はありません。Z I Z I YY∼ZY〜ZY \sim ZZiZ私Z_iZiZ私Z_iYYY コメントを見た後の更新:次元削減のためにPCAを使用する例がたくさんあると思います。私は、残された次元が最も予測力があることを意味していると思っていました。それ以外の場合、次元削減のポイントは何ですか?

3
回帰におけるリッジ正則化の解釈
最小二乗コンテキストでのリッジペナルティに関していくつかの質問があります。 βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1)この式は、Xの共分散行列が対角行列に向かって縮小されることを示唆しています。これは、(変数が手順の前に標準化されると仮定して)入力変数間の相関が低下することを意味します。この解釈は正しいですか? 2)それは収縮アプリケーションである場合、なぜそれが線で処方されていない(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X)我々が何らかの形で正規化して[0,1]の範囲にラムダを制限することができると仮定すると、。 3)[0,1]のような標準範囲に制限できるように、正規化λλ\lambdaできるもの。 4)対角線に定数を追加すると、すべての固有値に影響します。特異値または特異値に近い値のみを攻撃する方が良いでしょうか?これは、PCAをXに適用し、回帰の前に上位N主成分を保持するのと同じですか、または異なる名前を持っていますか(相互共分散計算を変更しないため)? 5)我々は、クロス共分散を正則化することも、意味、任意の用途を有するないβridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) ここで、小さなγγ\gammaは相互共分散を低下させます。これは明らかにすべてのββ\beta等しく低下させますが、おそらく共分散値に応じてハード/ソフトしきい値処理などのよりスマートな方法があります。

2
PCAとLDAを組み合わせるのは理にかなっていますか?
たとえば、ベイズ分類器を介して、教師付き統計分類タスク用のデータセットがあるとします。このデータセットは20個のフィーチャで構成されており、主成分分析(PCA)や線形判別分析(LDA)などの次元削減手法を使用して2つのフィーチャに要約します。 どちらの手法も、データをより小さな特徴部分空間に投影しています。PCAでは、データセットの分散を最大化する方向(コンポーネント)を見つけ(クラスラベルを考慮せず)、LDAでは、 -クラス分離。 今、私はこれらの技術を組み合わせることができるのか、どのように、そしてなぜできるのか、それが理にかなっているのか疑問に思っています。 例えば: PCAを介してデータセットを変換し、それを新しい2Dサブスペースに投影する LDAを介した(既にPCA変換済みの)データセットの変換 クラス内の分離 または PCAステップをスキップし、LDAの上位2つのコンポーネントを使用します。 または意味のある他の組み合わせ。

4
L1回帰推定値の中央値とL2回帰推定値の平均
そこで私は、L1(つまり投げ縄)とL2(つまり尾根回帰)のどの中心的な測定値が推定されたのかという質問をされました。答えは、L1 =中央値およびL2 =平均です。これには直感的な推論のタイプがありますか?または、代数的に決定する必要がありますか?もしそうなら、どうすればそれを行うことができますか?

2
ラムダが、エラスティックネット回帰のラムダの推奨値である「最小値から1つの標準誤差以内」であるのはなぜですか?
エラスティックネット回帰でラムダが果たす役割を理解しています。そして、なぜ相互検証エラーを最小化するラムダ値であるlambda.minを選択するのかを理解できます。 私の質問は、統計文献のどこでlambda.1seを使用することを推奨していますか、それはCVエラーと1つの標準エラーを最小にするラムダの値ですか?正式な引用を見つけることも、これがしばしば良い値である理由を見つけることもできないようです。私はそれがより制限された正則化であり、パラメータをゼロに向かってより小さくすることを理解していますが、lambda.1seがlambda.minよりも良い選択である条件が常にあるとは限りません。誰かが説明を助けることができますか?

1
ブリッジペナルティとElastic Netの正則化
LASSO(L1L1L_1)やRidge(L2L2L_2)など、いくつかのペナルティ関数と近似がよく研究されており、これらが回帰でどのように比較されるかがわかります。 ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ]は場合のBridgeペナルティをLASSOと比較しましたが、\ sum \ lambda_ {2として与えられるLASSOとRidgeペナルティの組み合わせであるElastic Net正則化との比較を見つけることができませんでした} \ | \ベータ\ | ^ {2} + \ lambda_ {1} \ | \ベータ\ | _ {1}。γ≥1γ≥1\gamma \geq 1∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1} Elastic Netとこの特定のBridgeには同様の制約形式があるため、これは興味深い質問です。さまざまなメトリックを使用してこれらの単位円を比較します(pppはミンコフスキー距離の累乗です)。 p=1p=1p = 1はLASSOに対応し、p=2p=2p = 2はリッジに対応し、p=1.4p=1.4p = 1.4は1つの可能なブリッジに対応します。Elastic Netは、L1L1L_1およびL2L2L_2ペナルティーに均等に重み付けして生成されました。これらの数値は、たとえば、スパース性を特定するのに役立ちます(Elastic NetがLASSOから保存している間、Bridgeは明らかに欠けています)。 では、のBridgeは、正則化(スパース性以外)に関してElastic Netとどのように比較されますか?私は教師あり学習に特別な関心を持っているので、おそらく機能の選択/重み付けに関する議論が適切です。幾何学的な議論も歓迎します。1&lt;γ&lt;21&lt;γ&lt;21<\gamma <2 …

2
ラプラスがスパースソリューションを事前に作成するのはなぜですか?
正則化に関する文献を調べていましたが、L2のレギュレーションとガウス事前分布、およびL1とゼロを中心としたラプラスとをリンクする段落がよく見られました。 これらの事前分布がどのように見えるかは知っていますが、たとえば線形モデルの重みに変換する方法はわかりません。L1では、正しく理解できれば、スパースソリューション、つまり、いくつかの重みが正確にゼロにプッシュされることを期待しています。また、L2では小さな重みが得られますが、重みはゼロではありません。 しかし、なぜそれが起こるのでしょうか? さらに情報を提供したり、思考の道筋を明確にする必要がある場合はコメントしてください。

2
「ランクを下げた回帰」とは何ですか?
私は統計学習の要素を読んでおり、セクション3.7「複数の結果の縮小と選択」が何であるかを理解できませんでした。RRR(Reduced-Rank Regression)について説明しており、前提は一般的な多変量線形モデルに関するものであり、係数は不明であり(推定される)、完全なランクを持たないことがわかっていることしか理解できません。私が理解しているのはそれだけです。 残りの数学は私を超えています。著者が「見せることができる」と言うことさえ助けにならず、物事を演習として残します。 誰かがここで何が起こっているのかを直感的に説明してもらえますか?この章では、おそらく新しい方法について説明していますか?または何?

3
LarsとGlmnetがLa​​sso問題に対して異なるソリューションを提供するのはなぜですか?
私は、より良好なRパッケージを理解したいLarsとGlmnet:ラッソ問題解決するために使用され、 (p変数およびNサンプルについては、3ページのwww.stanford.edu/~hastie/Papers/glmnet.pdfを参照)M I nは(β0β)∈ Rp + 1[ 12N∑私 = 1N( y私− β0− xT私β)2+ λ | |β| |l1]m私n(β0β)∈Rp+1[12N∑私=1N(y私−β0−バツ私Tβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppNNN したがって、同じおもちゃのデータセットに両方を適用しました。残念ながら、2つの方法は同じデータ入力に対して同じソリューションを提供しません。誰が違いがどこから来るのかを知っていますか? 結果を次のように取得しました。いくつかのデータ(8個のサンプル、12個の特徴、Toeplitzデザイン、すべてが中心)を生成した後、Larsを使用してLassoパス全体を計算しました。次に、Larsによって計算されたラムダのシーケンス(0.5を乗算)を使用してGlmnetを実行し、同じソリューションを取得したいと考えましたが、実行しませんでした。 ソリューションが似ていることがわかります。しかし、どのように違いを説明できますか?以下に私のコードを見つけてください。関連する質問があります:LASSOソリューションを計算するためのGLMNETまたはLARS?、しかし、私の質問に対する答えは含まれていません。 セットアップ: # Load packages. library(lars) library(glmnet) library(MASS) # Set parameters. nb.features &lt;- 12 nb.samples &lt;- 8 nb.relevant.indices &lt;- 3 snr &lt;- 1 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.