タグ付けされた質問 「shrinkage」

モデルフィッティングプロセスに追加の制約を含める(通常は複雑さのペナルティ)。過剰適合の防止/予測精度の向上に使用されます。

1
リッジ回帰は、どのような条件下で通常の最小二乗回帰よりも改善できますか?
リッジ回帰は、線形モデルのパラメーター推定します byここで\ lambdaは正則化パラメーターです。多くの相関予測子がある場合、OLS回帰(\ lambda = 0を使用)よりもパフォーマンスがよく向上することがよく知られています。Y = X β β λ = (X ⊤ X + λ I )- 1 X ⊤ Y、λ λ = 0ββ\boldsymbol \betay=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \betaβ^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,λλ\lambdaλ=0λ=0\lambda=0 リッジ回帰の存在定理によれば、パラメーター\ lambda ^ …

1
「リラックスした投げ縄」が標準の投げ縄と異なるのはなぜですか?
我々は、データのセットで開始した場合、それに投げ縄を適用し、溶液得るβ Lを、我々は、データセットに再び投げ縄を適用することができる(X S、Y )、Sは非ゼロの集合であります指標β Lは、ソリューション、取得するβ RのL、いわゆる「緩和LASSO」ソリューション(私が間違っている場合は、正しい私を!)。溶液β L満足しなければならない条件Karush-キューン・タッカー(KKT)のための(X 、Y )(X,Y)(X,Y)(X,Y)βLβL\beta^L(XS,Y)(XS,Y)(X_S, Y)SSSβLβL\beta^LβRLβRL\beta^{RL}βLβL\beta^L(X,Y)(X,Y)(X,Y)しかし、のKKT条件の形式を考えると、これらも満たすのではないでしょうか?もしそうなら、もう一度LASSOを行う意味は何ですか?(XS,Y)(XS,Y)(X_S, Y) この質問は、「二重投げ縄」を行うか、投げ縄を2回実行することの利点ですか?

2
収縮が実際に機能するのはなぜですか、0の特別な点は何ですか?
同じ問題について話しているこのサイトにはすでに投稿があります: なぜ収縮が機能するのですか? しかし、答えは人気がありますが、質問の要旨が本当に扱われているとは思いません。推定にバイアスを導入すると、分散が減少し、推定の品質が向上する可能性があることは明らかです。しかしながら: 1)バイアスを導入することによるダメージが分散ゲインと比較して少ないのはなぜですか? 2)常に機能するのはなぜですか?たとえば、リッジ回帰の場合:存在定理 3)0(原点)の何がそんなに面白いのですか?明らかに私たちは好きな場所(つまりStein estimator)で縮小できますが、それは起源と同じくらいうまく機能するのでしょうか? 4)さまざまなユニバーサルコーディングスキームが、原点周辺のビット数を減らすことを好むのはなぜですか?これらの仮説は単により可能性が高いのでしょうか? 実証済みの定理または確立された結果への参照を含む回答が期待されます。

5
「野生の」ジェームズ・シュタインの収縮?
James-Stein収縮の概念にとらわれます(つまり、独立した法線のベクトルの単一の観測の非線形関数は、「より良い」が二乗誤差で測定されるランダム変数の平均のより良い推定量になります) )。しかし、私はそれを応用研究で見たことがない。明らかに私は十分に読まれていません。James-Steinが適用された設定で推定を改善した典型的な例はありますか?そうでない場合、この種の収縮は単なる知的好奇心ですか?

4
投げ縄の最適なペナルティ選択
ペナルティ項の係数の最適な選択に関する分析結果または実験論文はありますか。することで、最適な、私は最適なモデルを選択する確率、またはその最小化予想損失を最大化するパラメータを意味します。問題のインスタンスの数が多いため、または手元の問題のサイズのために、相互検証またはブートストラップによってパラメーターを選択することは非現実的であることが多いためです。私が知っている唯一の肯定的な結果は、 and Plan、最小化によるほぼ理想的なモデル選択です。ℓ1ℓ1\ell_1ℓ1ℓ1\ell_1

2
収縮とは何ですか?
収縮という言葉は、特定のサークルの多くで使用されています。しかし、収縮とは何か、明確な定義はないようです。時系列(またはいくつかのプロセスの観測のコレクション)がある場合、その系列のある種の経験的な収縮を測定するためのさまざまな方法は何ですか?私が話し合うことができる理論的な収縮にはどのような種類がありますか?収縮は予測にどのように役立ちますか?人々はいくつかの良い洞察や参照を提供できますか?

1
LASSOの自由度の直観
ゾウ他 「なげなわの「自由度」」(2007)は、非ゼロ係数の数がなげなわの自由度の公平で一貫した推定値であることを示しています。 それは私には少し直感に反しているようです。 回帰モデルがあると仮定します(変数は平均がゼロです)。 y= βX + ε 。y=βバツ+ε。y=\beta x + \varepsilon. 無制限のOLS推定値がます。これは、非常に低いペナルティ強度に対する LASSO推定値とほぼ一致する可能性があります。ββ\betaβ^O L S= 0.5β^OLS=0.5\hat\beta_{OLS}=0.5ββ\beta さらに、特定のペナルティ強度 LASSO推定値がます。たとえば、は、クロス検証を使用して見つかったデータセットの「最適な」になります。 λ∗λ∗\lambda^*β^L A SSO 、λ∗= 0.4β^LASSO、λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4λ∗λ∗\lambda^*λλ\lambda 正しく理解すれば、どちらの場合も1つの非ゼロ回帰係数があるため、どちらの場合も自由度は1です。 質問: はよりもフィッティングの「自由」が少ないことを示唆しているのに、どちらの場合も自由度は同じなのでしょうか? β OLS=0.5β^L A SSO 、λ∗= 0.4β^LASSO、λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4β^O L S= 0.5β^OLS=0.5\hat\beta_{OLS}=0.5 参照: Zou、Hui、Trevor Hastie、およびRobert Tibshirani。「投げ縄の「自由度」について。」 統計学年報35.5(2007):2173-2192。

2
収縮が巧妙な方法で適用される場合、それは常により効率的な推定量に対してよりよく機能しますか?
私は2つの推定量があるとと同じパラメータの一致推定量であるとなるように psdの意味 でのしたがって、漸近的にはよりも効率的です。これらの2つの推定量は、異なる損失関数に基づいています。 β 2β0√βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0V1≤V2 β 1 β 2ん−−√(βˆ1- β0)→dN(0 、V1)、ん−−√(βˆ2- β0)→dN(0 、V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)V1≤ V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 ここで、私の推定量の有限標本特性を改善するために、いくつかの縮小手法を探したいと思います。 私は推定向上収縮技術見出さ仮定する有限のサンプル中にに等しい私MSEの値を与えるγ 2。これは私がして適用するための適切な収縮技術見つけることができることを意味するものではないβ 1 MSEに私に与えないだろう以下でγ 2を? βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 言い換えると、縮小が巧妙に適用されている場合、より効率的な推定量に対しては常により効果的に機能しますか?

1
LASSOでの正則化パラメーターの範囲とグリッド密度の選択
その間、私はLASSO(最小絶対収縮および選択演算子)を研究しています。正則化パラメーターの最適な値は、相互検証によって選択できることがわかりました。リッジ回帰と正則化を適用する多くの方法でも、CVを使用して最適な正則化パラメーター(ペナルティなど)を見つけることができます。今私の質問は、パラメーターの上限と下限の初期値と、シーケンスの長さを決定する方法です。 具体的には、我々はLASSO問題があると仮定 LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1 LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1 、ペナルティの最適値を見つけたいと考えていますλλ\lambda。次に、どのように我々はより低い選択することができますし、上位行きのλ∈[a=?,b=?]λ∈[a=?,b=?]\lambda \in [a=?,b=?]?これらの2つの値の間の分割数(b−a)k=?(b−a)k=?\frac{(b-a)}{k=?}?

1
不等分散のJames-Stein Estimator
James-Stein推定量について私が見つけたすべてのステートメントは、推定されている確率変数が同じ(および単位)分散を持っていると想定しています。 しかし、これらの例はすべて、JS推定器を使用して、互いに何の関係もなく数量を推定できることにも言及しています。ウィキペディアの例は、モンタナの光、台湾のお茶の消費量、および豚の体重の速度です。しかし、おそらくこれらの3つの量の測定値には、異なる「真の」分散があります。これは問題を引き起こしますか? :この質問に関連し、私は理解していないという大きな概念問題にこのネクタイ、ジェームズ・スタイン推定:どのようエフロンとモリス計算でした彼らの野球例えば収縮率で?σ2σ2\sigma^2収縮率は次のように計算します。ccc c=1−(k−3)σ2∑(y−y¯)2c=1−(k−3)σ2∑(y−y¯)2 c = 1 - \frac{(k-3) \sigma^2} {\sum (y - \bar{y})^2} 直感的に、私は、と思うだろう項は、実際にあるσ 2 Iと推定されている各数量ごとに異なります- 。しかし、その質問の議論はプールされた分散の使用についてのみ話します...σ2σ2\sigma^2σ2iσi2\sigma^2_i 誰かこの混乱を解消していただければ幸いです。

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

4
ラグの順序をなげなわにしますか?
という形式の縦断データがあるとします(複数の観測結果があり、これは単一の観測値の形式です)。制限に興味があります。無制限のは、 with。Σ Σ YのJ = α J + J - 1 Σ ℓ = 1つの φのℓのJ YのJ - ℓ + ε jのε J〜N (0 、σ J)Y =( Y1、… 、YJ)〜N(μ 、Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj= αj+ ∑ℓ = 1j − 1φℓのJYJ - ℓ+ εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j …

2
ミックスの順序に基づく「混合されていない」パーツの分布
としてペアで作成された観測値iidがあるとします以下のために。LETによると表すの番目の最大観測値。の(条件付き)分布とは何ですか?(または同等に、)私は= 1 、2 、... 、N Z iが = X I + Y I、Z I J J Z X I jはXi∼N(0,σ2x),Yi∼N(0,σ2y),Xi∼N(0,σx2),Yi∼N(0,σy2),X_i \sim \mathcal{N}\left(0,\sigma_x^2\right), Y_i \sim \mathcal{N}\left(0,\sigma_y^2\right),i=1,2,…,ni=1,2,…,ni=1,2,\ldots,nZi=Xi+Yi,Zi=Xi+Yi,Z_i = X_i + Y_i,ZijZijZ_{i_j}jjjZZZXijXijX_{i_j}YijYijY_{i_j} つまり、が観測値の番目に大きいことを条件として、の分布は何ですか?Z i j n ZXiXiX_iZiZiZ_ijjjnnnZZZ 私はそれを推測してい、の分布のちょうど無条件分布に収束としてながら、の、分布は、次の統計量の無条件分布に収束します。でも、真ん中ははっきりしません。XIjのXρ→∞XIJJXρ=σxσy→0ρ=σxσy→0\rho = \frac{\sigma_x}{\sigma_y} \to 0XijXijX_{i_j}XXXρ→∞ρ→∞\rho \to \inftyXijXijX_{i_j}jjjXXX

1
特徴選択のためのランダム置換テスト
ロジスティック回帰のコンテキストでの特徴選択のための順列分析について混乱しています。 ランダム置換テストの明確な説明と、それが特徴選択にどのように適用されるかを教えてください。おそらく正確なアルゴリズムと例で。 最後に、LassoやLARなどの他の収縮方法と比較してどうですか?

2
ベイジアン階層型一般化線形モデルでの特徴選択
私は階層的なGLMを推定しようとしていますが、どの共変量を母集団レベルで含めるかを決定するための機能を選択しています。 観測値と可能な共変量を持つグループがあるとします。つまり、共変量\ boldsymbol {x} _ {(N \ cdot G)\ times K}、結果\ boldsymbol {y} _ {(N \ cdot G)\ times 1}。これらの共変量の係数は\ beta_ {K \ times 1}です。GGGNNNKKKx(N⋅G)×Kx(N⋅G)×K\boldsymbol{x}_{(N\cdot G) \times K}y(N⋅G)×1y(N⋅G)×1\boldsymbol{y}_{(N\cdot G) \times 1}βK×1βK×1\beta_{K \times 1} 仮定YYY〜Bernoulli(p(x,β))Bernoulli(p(x,β))Bernoulli(p(x,\beta)) 以下は、ロジットサンプリングモデルと正規分布グループ係数を使用した標準的な階層型ベイジアンGLMです。 L(y|x,β1,...βG)∝∏g=1G∏t=1N(Pr{j=1|pt,βg})yg,t(1−Pr{j=1|pt,βg})1−yg,tL(y|x,β1,...βG)∝∏g=1G∏t=1N(Pr{j=1|pt,βg})yg,t(1−Pr{j=1|pt,βg})1−yg,t{\cal L}\left(\boldsymbol{y}|\boldsymbol{x},\beta_{1},...\beta_{G}\right)\propto\prod_{g=1}^{G}\prod_{t=1}^{N}\left(\Pr\{j=1|p_{t},\beta^{g}\}\right)^{y_{g,t}}\left(1-\Pr\{j=1|p_{t},\beta^{g}\}\right)^{1-y_{g,t}} β1,...βG|μ,Σ∼iidNd(μ,Σ)β1,...βG|μ,Σ∼iidNd(μ,Σ)\beta_{1},...\beta_{G}|\mu,\Sigma\sim^{iid}{\cal N}_{d}\left(\mu,\Sigma\right) μ|Σ∼N(μ0,a−1Σ)μ|Σ∼N(μ0,a−1Σ)\mu|\Sigma\sim{\cal N}\left(\mu_{0},a^{-1}\Sigma\right) Σ∼IW(v0,V−10)Σ∼IW(v0,V0−1)\Sigma\sim{\cal IW}\left(v_{0},V_{0}^{-1}\right) \ betaの次元数に(LASSOのように)鋭い特徴選択があるように、このモデルを変更(またはそれを実行するか、それを説明する作業を見つける)したいと思いββ\betaます。 (1)最も単純な最も直接的な方法は、母集団レベルでこれを正則化して、の次元数を本質的に制限し、すべてのが同じ次元になるようにすることです。μμ\muββ\beta (2)より微妙なモデルでは、グループレベルで収縮が発生し、次元は階層単位に依存します。ββ\beta 1と2を解くことに興味がありますが、もっと重要なのは1です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.