タグ付けされた質問 「penalized」

3
相互作用用語を含むLASSO-主効果がゼロに縮小されても大丈夫ですか?
LASSO回帰は係数をゼロに向けて縮小するため、効果的にモデルを選択できます。私のデータには、名義共変量と連続共変量の間に意味のある相互作用があると思います。ただし、必ずしも真のモデルの「主効果」が意味がある(ゼロ以外)わけではありません。もちろん、本当のモデルは不明なので、私はこれを知りません。私の目的は、真のモデルを見つけ、可能な限り密接に結果を予測することです。 モデル構築の古典的なアプローチには、相互作用が含まれる前に主効果が常に含まれることがわかった。したがって、同じモデル内に共変量相互作用がある場合、2つの共変量と主効果のないモデルは存在できません。結果として、この関数は 、この規則に従うモデル用語(例えば、後方または前方AICに基づいて)を慎重に選択します。バツバツXZZZバツ* Zバツ∗ZX*ZstepR LASSOの動作は異なるようです。すべてのパラメーターにペナルティが課されるため、主効果がゼロに縮小されるのに対し、最良の(たとえば、相互検証された)モデルの相互作用はゼロではないことは間違いありません。これは、特にRのglmnetパッケージを使用しているときにデータに見られます。 上記の最初のルールに基づいて批判を受けました。つまり、最終的な交差検証されたLassoモデルには、非ゼロ相互作用の対応する主効果項が含まれていません。しかし、この文脈ではこの規則はやや奇妙に思えます。結局のところ、真のモデルのパラメーターがゼロかどうかという問題です。そうだと仮定しますが、相互作用はゼロではないので、LASSOはおそらくこれを識別し、正しいモデルを見つけます。実際、このモデルには実際にはノイズ変数である真のゼロの主効果が含まれていないため、このモデルからの予測はより正確になるようです。 この根拠に基づいて批判に反論することはできますか、それともLASSOには相互作用期間の前に主な効果が含まれることに何らかの注意を払う必要がありますか?

2
KKT対投げ縄回帰の制約なし定式化
L1ペナルティ付き回帰(別名lasso)は、2つの形式で表されます。2つの目的関数を 2つの異なる定式化は 対象 及び、等価 Karush-Kuhn-Tucker(KKT)条件を使用すると、最初の定式化の定常性条件が2番目の定式化の勾配を取得して0に設定するのと同等であることが簡単にわかります。は、最初の定式化の補完的なスラックネス条件であるQ1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, λ (| | β | | 1 − t ) = 0argminβQ2.argminβQ2. \text{argmin}_\beta \; Q_2. λ(||β||1−t)=0λ(||β||1−t)=0\lambda\left(||\beta||_1 - t\right) = 0、2番目の定式化のソリューションによって満たされることが保証されています。

1
ペナルティ回帰における収縮パラメーターの可能な値の典型的な範囲は何ですか?
なげなわまたはリッジ回帰では、多くの場合またはαと呼ばれる収縮パラメーターを指定する必要があります。この値は、多くの場合、トレーニングデータのさまざまな値をチェックし、テストデータでR 2などの最良の結果が得られるかどうかを確認することにより、相互検証によって選択されます。チェックする値の範囲はどのくらいですか?それは(0 、1 )?λλ\lambdaαα\alphaR2R2R^2(0,1)(0,1)(0,1)


1
ベイジアンスパイクおよびスラブとペナルティ付きメソッド
私はBSTS Rパッケージに関するSteven Scottのスライドを読んでいます(ここで見つけることができます:スライド)。 ある時点で、構造的時系列モデルに多くのリグレッサを含めることについて話すとき、彼は回帰係数のスパイクとスラブの事前分布を導入し、それらはペナルティ付き手法と比較して優れていると述べています。 スコット氏は、100個の予測子を含むデータセットの例を参照します。 ペナルティ付きメソッドは、どの変数が含まれる/除外されるかについて単一の決定を行います。つまり、予測子の1つのサブセット、つまり可能なものの中から1つのモデルを決定します。210021002^{100} "なげなわ(および関連する)事前分布はスパースではなく、モードでスパース性を誘導しますが、事後分布では誘導しません" この時点で、彼はスパイクとスラブの事前分布を紹介します。 私は直感を得たと思いますが、それについて確認したいと思います。 それらは、基本的にブルートフォースアプローチを使用して、含めることができるリグレッサの各サブセットをテストするという意味で優れていますか? 欠点はそうすることで計算時間ですか? 「なげなわ(および関連)...事後分布ではない」と言うとき、彼は何を意味していると思いますか?

2
収縮が巧妙な方法で適用される場合、それは常により効率的な推定量に対してよりよく機能しますか?
私は2つの推定量があるとと同じパラメータの一致推定量であるとなるように psdの意味 でのしたがって、漸近的にはよりも効率的です。これらの2つの推定量は、異なる損失関数に基づいています。 β 2β0√βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0V1≤V2 β 1 β 2ん−−√(βˆ1- β0)→dN(0 、V1)、ん−−√(βˆ2- β0)→dN(0 、V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)V1≤ V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 ここで、私の推定量の有限標本特性を改善するために、いくつかの縮小手法を探したいと思います。 私は推定向上収縮技術見出さ仮定する有限のサンプル中にに等しい私MSEの値を与えるγ 2。これは私がして適用するための適切な収縮技術見つけることができることを意味するものではないβ 1 MSEに私に与えないだろう以下でγ 2を? βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 言い換えると、縮小が巧妙に適用されている場合、より効率的な推定量に対しては常により効果的に機能しますか?

2
データポイントよりも多くの変数を使用したモデリング
私は機械学習/モデリングの初心者です。この問題の背景を教えてください。私は、観測数があるデータセットを持っているしかし、変数の数があるのp 〜8000。最初に、このようなデータセットでモデルを構築することを検討することは理にかなっていますか、それとも、リッジ回帰や投げ縄などの変数選択手法を最初に検討する必要がありますか?この状況は過剰適合につながる可能性があることを読みました。それはすべてのMLテクニックに当てはまりますか、それともいくつかのテクニックはこれを他のテクニックよりうまく処理しますか?数学が多すぎなければ、p &gt; nで数学が崩壊し始める理由についての簡単な説明をいただければ幸いです。n&lt;200n&lt;200n<200p∼8000p∼8000p\sim 8000p&gt;np&gt;np>n

2
回帰におけるB-スプラインVS高次多項式
具体的な例や課題は考えていません。私はbスプラインを使うのが初めてで、この関数を回帰のコンテキストでよりよく理解したかったのです。 応答変数といくつかの予測子x 1、x 2、との関係を評価したいとします。。。、x p。予測子には、いくつかの数値変数といくつかのカテゴリカル変数が含まれています。yyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p 回帰モデルを当てはめた後、数値変数の1つ、たとえばが有意であるとしましょう。その後の論理的ステップは、オーバーフィッティングなしで関係を適切に説明するために、高次多項式、たとえばx 2 1とx 3 1が必要かどうかを評価することです。x1x1x_1x21x12x_1^2x31x13x_1^3 私の質問は: どの時点で、bスプラインまたは単純な高次多項式を選択しましたか。例:R: y ~ poly(x1,3) + x2 + x3 対 y ~ bs(x1,3) + x2 + x3 プロットを使用して、これら2つの間の選択を通知する方法と、プロットから本当に明確でない場合はどうなるか(例:大量のデータポイントが原因) とx 3の間の双方向相互作用項をどのように評価しますかx2x2x_2x3x3x_3 上記の方法は、モデルの種類によってどのように変わりますか 高次多項式を使用せず、常にBスプラインをフィッティングして高い柔軟性にペナルティを課すことを検討しますか?

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
glmnetは過剰分散をどのように処理しますか?
カウントデータに対してテキストをモデル化する方法、特にこの機能を使用してlasso機能を削減する方法について質問があります。 オンライン記事がN個あり、各記事のページビュー数があるとします。記事ごとに1グラムと2グラムを抽出しましたが、1,2グラムに対して回帰を実行したいと思いました。特徴(1,2グラム)は観測数よりもはるかに多いため、なげなわは特徴の数を減らすための良い方法です。また、glmnetなげなわ分析を実行するのに本当に便利であることがわかりました。 しかし、ページビューのカウント数は、(分散&gt;平均)overdispersedされていますが、glmnet提供していませんquasipoisson(明示的)またはnegative binomialが、poissonカウントデータについて。私が考えた解決策はlog transform、カウントデータ(社会科学者の間で一般的に使用される方法)であり、応答変数をほぼ正規分布に従うようにすることです。そのため、を使用して、ガウスファミリーでデータをモデル化できglmnetます。 だから私の質問は、そうすることは適切ですか?または、glmnetケースglmnetハンドルにpoissonを使用しますquasipoissonか?または、他のRパッケージがこの状況を処理しますか? どうもありがとうございました!

4
なげなわがペナルティパラメータに収束しないのはなぜですか?
LASSO回帰がどのように機能するかを調べるためにLASSO、最適なアルファパラメーターを選択することで回帰を最適化する小さなコードを書きました。 LASSO交差検証後、回帰がアルファパラメーターに対してこのような不安定な結果をもたらす理由を理解できません。 これが私のPythonコードです: from sklearn.linear_model import Lasso from sklearn.cross_validation import KFold from matplotlib import pyplot as plt # generate some sparse data to play with import numpy as np import pandas as pd from scipy.stats import norm from scipy.stats import uniform ### generate your own data here n = 1000 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.