タグ付けされた質問 「regularization」

モデルフィッティングプロセスに追加の制約を含める(通常は複雑さのペナルティ)。過剰適合の防止/予測精度の向上に使用されます。

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

2
なげなわの代わりにグループなげなわを使用する理由
私は、グループのなげなわが変数のグループの変数選択とスパース性に使用されることを読みました。この主張の背後にある直感を知りたい。 グループ投げ縄が投げ縄よりも優先されるのはなぜですか? なぜグループラッソソリューションパスが区分的に線形ではないのですか?

1
係数パス–リッジ、なげなわおよびエラスティックネット回帰の比較
リッジ、なげなわ、エラスティックネットで選択したモデルを比較したいと思います。以下の図は、3つの方法すべてを使用した係数パスを示しています。リッジ(図A、アルファ= 0)、投げ縄(図B、アルファ= 1)、弾性ネット(図C、アルファ= 0.5)。最適なソリューションは、クロス検証に基づいて選択されたラムダの選択値に依存します。 これらのプロットを見ると、エラスティックネット(図C)がグループ化効果を示すことが予想されます。ただし、提示されたケースでは明確ではありません。投げ縄とエラスティックネットの係数パスは非常に似ています。この理由は何でしょうか?それは単なるコーディングミスですか?Rで次のコードを使用しました。 library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge plot(ans1$glmnet.fit, "lambda", label=FALSE) text (6, 0.4, "A", cex=1.8, font=1) ans2<-cv.glmnet(X, Y, alpha=1) # lasso plot(ans2$glmnet.fit, "lambda", label=FALSE) text (-0.8, 0.48, "B", cex=1.8, font=1) ans3<-cv.glmnet(X, Y, alpha=0.5) # elastic net plot(ans3$glmnet.fit, "lambda", label=FALSE) text (0, …

2
LASSOは相関予測変数をいつ選択しますか?
Rのパッケージ「lars」を次のコードで使用しています。 > library(lars) > set.seed(3) > n <- 1000 > x1 <- rnorm(n) > x2 <- x1+rnorm(n)*0.5 > x3 <- rnorm(n) > x4 <- rnorm(n) > x5 <- rexp(n) > y <- 5*x1 + 4*x2 + 2*x3 + 7*x4 + rnorm(n) > x <- cbind(x1,x2,x3,x4,x5) > cor(cbind(y,x)) y x1 x2 …

2
規則性と正則化とは何ですか?
機械学習を勉強するにつれて、これらの言葉をどんどん聞いています。実際、方程式の規則性に取り組んでフィールズメダルを獲得した人もいます。だから、これは統計物理学/数学から機械学習に至る用語です。当然、私が尋ねた多くの人々は、それを直感的に説明できませんでした。 ドロップアウトなどのメソッドが正則化に役立つことを知っています(=>彼らはオーバーフィットを減らすと言いますが、実際にはそれがわかりません:それがオーバーフィットを減らすだけなら、なぜそれをアンチオーバーフィットメソッドと呼ばないのですか?もっと私が思うので、この質問)。 あなたが説明できるなら、私は本当に感謝しています(私は素朴なMLコミュニティもそうでしょう!) 規則性をどのように定義しますか?規則性とは何ですか? 正規化は、規則性を保証する方法ですか?すなわち、規則性をキャプチャしますか? ドロップアウトなどのメソッドの組み立て、正規化メソッドがすべて正規化を行っていると主張するのはなぜですか? なぜ機械学習でこれら(規則性/正規化)が出てくるのですか? ご協力ありがとうございます。


5
再帰的(オンライン)正則化最小二乗アルゴリズム
Tikhonov Regularization(正則化された最小二乗法)のオンライン(再帰)アルゴリズムの方向を教えていただけますか? オフライン設定では、元のデータセットを使用してを計算し、n倍交差検証を使用してλを見つけます。y = x ^ T \ hat \ betaを使用して、指定されたxの新しいy値を予測できます。β^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TYλλλyyyxxxy=xTβ^y=xTβ^y=x^T\hat\beta オンライン環境では、新しいデータポイントを継続的に描画します。データセット全体(元の+新しい)で完全な再計算を行わずに新しい追加のデータサンプルを描画するときに、を更新するにはどうすればよいですか?β^β^\hat\beta

2
モデル選択または正則化後のGLM
この質問を2つの部分に分けたいと思います。両方とも一般化線形モデルを扱いますが、最初はモデル選択を扱い、他は正則化を扱います。 背景:予測と説明の両方にGLM(線形、ロジスティック、ガンマ回帰)モデルを利用しています。「回帰で行う通常のこと」を参照するとき、主に(i)係数の信頼区間、(ii)予測の信頼区間、(iii)のような係数の線形結合に関する仮説検定の説明を意味する治療Aと治療Bの間に違いがありますか?」 以下のそれぞれのもとで通常の理論を使用してこれらのことを行う能力を合法的に失いますか?もしそうなら、これらは本当に純粋な予測に使用されるモデルにのみ適していますか? I. GLMが何らかのモデル選択プロセスを介して適合した場合(具体的には、AICに基づく段階的な手順と言います)。 II。GLMが正則化方法(Rでglmnetを使用するなど)によって適合されたとき。 私の考えでは、私にとっては、答えは技術的には「リグレッションで行う通常のこと」にブートストラップを使用する必要があるということですが、実際にそれを遵守している人はいません。 追加: いくつかの回答を得て、他の場所で読んだ後、これについての私の見解を示します(他の人にとっても、訂正を受けるためにも)。 I. A)RE:エラーの一般化。新しいデータのエラー率を一般化するために、保持セットがない場合、クロス検証は機能しますが、折り畳みごとにプロセスを完全に繰り返す必要があります-ネストされたループを使用するため、機能の選択、パラメーターの調整などが必要です毎回独立して行われます。この考え方は、モデリング作業(ペナルティ化された方法を含む)に当てはまるはずです。 B)RE:GLMの仮説検定と信頼区間。一般化線形モデルにモデル選択(機能選択、パラメーター調整、変数選択)を使用し、ホールドアウトセットが存在する場合、パーティションでモデルをトレーニングし、残りのデータまたは完全なデータセットにモデルを適合させることができますそのモデル/データを使用して仮説検定などを実行します。ホールドアウトセットが存在しない場合、各ブートストラップサンプルに対して完全なプロセスが繰り返される限り、ブートストラップを使用できます。これは、おそらく変数が常に選択されるとは限らないため、実行できる仮説検定を制限します。 C)RE:将来のデータセットの予測を実行しない、理論といくつかの仮説検定によって導かれた目的のあるモデルに適合し、(HosmerとLemeshowの線に沿って)モデル内のすべての変数を残すことを考慮します。これは、小さな変数セットの古典的なタイプの回帰モデリングであり、CIおよび仮説検定の使用を可能にします。 D)RE:ペナルティ付き回帰。アドバイスはありません、おそらくこれは予測のみに適していると考えてください(または、上記のBのように別のデータセットに適用する特徴選択のタイプとして)、導入されたバイアスはCIと仮説テストをブートストラップでも不適切にするため


4
なげなわが機能選択に対して不安定になる原因は何ですか?
圧縮センシングでは、 が一意のスパースソリューションcを持つという定理が保証され (詳細は付録を参照)。argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc 投げ縄に同様の定理はありますか?そのような定理がある場合は、投げ縄の安定性を保証するだけでなく、投げ縄にさらに意味のある解釈を提供します。 lassoは、y = Xcによって応答yを生成するために使用されるスパース回帰係数ベクトルcccを明らかにできます。yyyy=Xcy=Xcy = Xc この質問をする理由は2つあります。 「lassoはスパースソリューションを優先する」とは、選択した機能の利点が何であるかさえわからないため、機能選択にlassoを使用する理由に対する答えではないと思います。 なげなわは機能選択が不安定であることで有名です。実際には、その安定性を評価するためにブートストラップサンプルを実行する必要があります。この不安定性を引き起こす最も重要な理由は何ですか? 付録: X_ {N \ times M} =(x_1、\ cdots、x_M)が与えられXN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)ます。cccはΩΩ\Omega -sparse vector(Ω⩽MΩ⩽M\Omega \leqslant M)です。プロセスy=Xcy=Xcy = Xcは応答yを生成しyyyます。場合XXXオーダーのNSP(ヌル空間プロパティ)を有するΩΩ\Omegaとの共分散行列XXXゼロへの固有値近いを持っていない、に固有のソリューションが存在することになる argmin∥c∥1subject to y=Xcargmin‖c‖1subject to …

1
負のリッジ回帰を理解する
負の尾根回帰に関する文献を探しています。 要するに、それは負の使用線形リッジ回帰の一般化であるλλ\lambda推定式β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.ポジティブなケースには素晴らしい理論があります:損失関数として、制約として、以前のベイズとして...しかし、私は上記の式だけを使ったネガティブなバージョンで迷っています。それはたまたま私がしていることには役立ちますが、私はそれを明確に解釈することができません。 ネガティブリッジに関する深刻な導入テキストを知っていますか?どのように解釈できますか?


1
正則化とラグランジュ乗数の方法との関係は何ですか?
人々の過剰適合を防ぐために、人々は線形回帰のコスト関数に正則化パラメーターを持つ正則化項(モデルのパラメーターの二乗和に比例)を追加します。このパラメータはラグランジュ乗数と同じですか?正則化はラグランジュ乗数の方法と同じですか?または、これらのメソッドはどのように関連付けられていますか? λλ\lambdaλλ\lambda

5
リッジとLASSOの基準
この投稿はこれに続きます:対角線に定数を追加することにより、隆起推定がOLSよりも優れているのはなぜですか? これが私の質問です: 私の知る限り、リッジの正則化はノルム(ユークリッド距離)を使用します。しかし、なぜこの基準の2乗を使用するのですか?(を直接適用すると、ベータ2乗の合計の平方根になります)。ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 比較として、正規化にを使用するLASSOではこれを行いません。しかし、これは「実際の」ノルムです(ベータ絶対値の2乗の合計であり、この合計の2乗ではありません)。ℓ 1ℓ1ℓ1\ell_1ℓ1ℓ1\ell_1 誰かが私を明確にするのを手伝ってくれる?

1
どのようなものがあり
最近、スパース表現に関する多くの論文を目にしており、それらのほとんどはノルムを使用し、いくつかの最小化を行っています。私の質問は、ノルムと混合ノルムとは何ですか?そして、それらは正則化にどのように関連していますか?ℓ のp ℓのP 、Qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} ありがとう

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.