タグ付けされた質問 「regularization」

モデルフィッティングプロセスに追加の制約を含める(通常は複雑さのペナルティ)。過剰適合の防止/予測精度の向上に使用されます。

1
回帰におけるデータのセンタリングと標準化の必要性
いくつかの正則化を伴う線形回帰を考えてみましょう:例えばを最小化するを見つけますxxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 通常、Aの列は平均と単位ノルムがゼロになるように標準化され、は平均がゼロになるように中央揃えされます。標準化とセンタリングの理由についての私の理解が正しいかどうかを確認したいと思います。bbb と列の平均をゼロにすることにより、切片項はもう必要ありません。そうでなければ、目的はます。Aの列のノルムを1にすることにより、Aの1つの列が非常に高いノルムを持っているために係数が低くなり、その列が誤って結論付けられる可能性を排除します。 Aはxをうまく「説明」しません。AAAbbb||Ax−x01−b||2+λ||x||1||Ax−x01−b||2+λ||x||1||Ax-x_01-b||^2+\lambda||x||_1xxxxxx この推論は厳密ではありませんが、直感的には正しいと思いますか?

2
収縮が実際に機能するのはなぜですか、0の特別な点は何ですか?
同じ問題について話しているこのサイトにはすでに投稿があります: なぜ収縮が機能するのですか? しかし、答えは人気がありますが、質問の要旨が本当に扱われているとは思いません。推定にバイアスを導入すると、分散が減少し、推定の品質が向上する可能性があることは明らかです。しかしながら: 1)バイアスを導入することによるダメージが分散ゲインと比較して少ないのはなぜですか? 2)常に機能するのはなぜですか?たとえば、リッジ回帰の場合:存在定理 3)0(原点)の何がそんなに面白いのですか?明らかに私たちは好きな場所(つまりStein estimator)で縮小できますが、それは起源と同じくらいうまく機能するのでしょうか? 4)さまざまなユニバーサルコーディングスキームが、原点周辺のビット数を減らすことを好むのはなぜですか?これらの仮説は単により可能性が高いのでしょうか? 実証済みの定理または確立された結果への参照を含む回答が期待されます。

1
ARIMAモデルの正則化
LASSO、リッジ、および線形回帰モデルの正則化のElastic-Netタイプを認識しています。 質問: この(または同様の)罰則付き推定をARIMAモデリングに適用できますか(空でないMAパーツを使用)。 pmaxpmaxp_{max}qmaxqmaxq_{max}p⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} 私のさらなる質問は次のとおりです。 (、)までのすべての項を含めることができますが、係数のサイズにペナルティを科せますか(潜在的にゼロまで)。それは理にかなっていますか?pmaxpmaxp_{max}qmaxqmaxq_{max} もしそうなら、それはRまたは他のソフトウェアに実装されていますか?そうでない場合、問題は何でしたか? やや関連する投稿はこちらにあります。

4
リッジ回帰の等価式の証明
統計学習で最も人気のある本を読みました 1- 統計学習の要素。 2- 統計学習の紹介。 どちらも、リッジ回帰には同等の2つの式があることに言及しています。この結果を理解できる数学的な証拠はありますか? Cross Validatedも通過しましたが、そこには明確な証拠が見つかりません。 さらに、LASSOは同じタイプの証明を享受しますか?

3
オンライン学習での正則化と機能スケーリング?
ロジスティック回帰分類器があるとします。通常のバッチ学習では、過剰適合を防ぎ、体重を小さく保つための正規化用語があります。また、機能を正規化およびスケーリングします。 オンライン学習環境では、継続的なデータのストリームを取得しています。各例で勾配降下更新を行い、それを破棄します。オンライン学習で機能スケーリングと正則化用語を使用することになっていますか?はいの場合、どうすればそれができますか?たとえば、スケーリングするトレーニングデータのセットがありません。また、正規化パラメーターを調整するための検証セットもありません。いいえの場合、なぜですか? オンライン学習では、例のストリームを継続的に取得します。新しい例ごとに、予測を行います。次に、次のタイムステップで、実際のターゲットを取得し、勾配降下更新を実行します。

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

1
なげなわの0成分を与える最小の
β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n 我々が知っているためλ≥1n∥XTy∥∞λ≥1n‖XTy‖∞\lambda \geq \frac{1}{n} \|X^T y\|_\infty、投げ縄推定β^λ=0β^λ=0\hat\beta^\lambda = 0。(たとえば、LassoおよびRidge調整パラメータースコープを参照してください。)他の表記では、これは\ lambda_ \ max = \ frac {1} {n} \ | X ^ T y \ | _ \ inftyを表しλmax=1n∥XTy∥∞λmax=1n‖XTy‖∞\lambda_\max = \frac{1}{n} \|X^T …


2
L2ノルム損失には独自のソリューションがあり、L1ノルム損失には複数のソリューションがあるのはなぜですか?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ この投稿の上部を見ると、筆者は、L2ノルムには独自のソリューションがあり、L1ノルムにはおそらく多くのソリューションがあると述べています。これは正則化の観点から理解できますが、損失関数でのL1ノルムまたはL2ノルムの使用という点では理解できません。 スカラーx(x ^ 2および| x |)の関数のグラフを見ると、両方に1つの一意の解があることが簡単にわかります。

4
ノルム
ためノルムが(少なくとも部分的に)ユニークで、P = 1は非凸と凸との間の境界にあります。L 1ノルムが「最もまばらな」凸規範(右?)です。L1L1L_1p=1p=1p=1L1L1L_1 私はそれを理解し、ユークリッドノルムが幾何学にルーツを持ち、寸法が同じ単位を持っている場合には、明確な解釈を持っています。しかし、他の実数p > 1よりも優先的に使用される理由がわかりません:p = 1.5?p = π?完全な連続範囲をハイパーパラメーターとして使用しないのはなぜですか?p=2p=2p=2p>1p>1p>1p=1.5p=1.5p=1.5p=πp=πp=\pi 私は何が欠けていますか?

1
データ行列が対角である場合の投げ縄問題の閉形式解
\newcommand{\diag}{\operatorname{diag}}minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). この場合、閉じた形式のソリューションはありますか? 私はそれを持っています:そして、答えは:^ J = Y \ \ W、^ J \最大\左\ {0,1- \ラムダ\ FRAC {N} {| y ^ J |} \右\}、のためにY \、^ J = \ displaystyle \ sum_ {i = 1} ^ n \ frac {y_ix_i \、^ j} {\ sigma_i ^ 2}ですが、わかりません。W(XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),ywj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}

1
小さいデータセットでのLSTMの過剰適合の防止
80次元のword2vecのような表現を使用して、128の隠れユニットを持つ単一レイヤーLSTMを使用して、感情予測のために15000のツイートをモデリングしています。1エポック後に降下精度(ランダム= 20%で38%)を取得します。トレーニングを増やすと、トレーニングの精度が上昇し始めると検証の精度が低下し始めます。これは、過剰適合の明確な兆候です。 したがって、正則化を行う方法を考えています。隠れユニットの数を減らしたくない(128はもう少し低いようだ)。現在、50%の確率でドロップアウトを使用していますが、これはおそらく増加する可能性があります。オプティマイザーは、Kerasのデフォルトパラメーター(http://keras.io/optimizers/#adam)を持つAdamです。 データセットでこのモデルの過剰適合を減らす効果的な方法は何ですか?

1
バイアス分散分解
Bishopのパターン認識と機械学習のセクション3.2で、彼はバイアス分散分解について説明し、損失関数の2乗について、期待損失を2乗バイアス項に分解できることを述べています(これは、平均予測が真からどれだけ離れているかを説明しています)モデル)、分散項(平均の周りの予測の広がりを表す)、およびノイズ項(データの固有のノイズを与える)。 バイアス分散分解は、2乗損失以外の損失関数で実行できますか? 特定のモデルデータセットについて、予想損失がすべてのモデルで最小となるモデルが複数ありますか?その場合、同じ最小予想損失をもたらすバイアスと分散の異なる組み合わせが存在する可能性があるということですか? モデルに正則化が含まれる場合、バイアス、分散、正則化係数間に数学的な関係がありますか?λλ\lambda 真のモデルがわからない場合、どのようにバイアスを計算できますか? 予想される損失(バイアスと分散の2乗の合計)よりも、バイアスまたは分散を最小化する方が理にかなっている状況はありますか?

1
JAGSの正規化ベイジアンロジスティック回帰
ベイジアンラッソを説明する数学に重点を置いた論文がいくつかありますが、使用できるテスト済みの正しいJAGSコードが必要です。 正規化されたロジスティック回帰を実装するサンプルBUGS / JAGSコードを投稿できますか?任意のスキーム(L1、L2、Elasticnet)が最適ですが、Lassoが推奨されます。また、興味深い代替の実装戦略があるのだろうかと思います。

3
LASSOソリューションを計算するためのGLMNETまたはLARS?
LASSO問題の係数を取得したい ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 問題は、glmnet関数とlars関数が異なる答えを与えることです。glmnet関数については、係数を求めます。| Y | | 単にλの代わりに、私はまだ異なる答えを得る。λ/||Y||λ/||Y||\lambda/||Y||λλ\lambda これは予想されますか?ラースとの関係は何であるとglmnet λは?私はglmnetがLASSOの問題に対してより高速であることを理解していますが、どの方法がより強力かを知りたいですか?λλ\lambdaλλ\lambda deps_statsデータセットのサイズが大きすぎてLARSが処理できないのに対して、glmnetは大きなデータセットを処理できません。 mpiktas(Y-Xb)^ 2 + L \ sum | b_j |の解を見つけたい しかし、2つのアルゴリズム(larsとglmnet)から特定のLの計算された係数を求めると、異なる答えが得られます...そして、それは正しい/期待されているのでしょうか?または、2つの関数に間違ったラムダを使用しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.