統計とビッグデータ penalized

3

LASSO回帰は係数をゼロに向けて縮小するため、効果的にモデルを選択できます。私のデータには、名義共変量と連続共変量の間に意味のある相互作用があると思います。ただし、必ずしも真のモデルの「主効果」が意味がある（ゼロ以外）わけではありません。もちろん、本当のモデルは不明なので、私はこれを知りません。私の目的は、真のモデルを見つけ、可能な限り密接に結果を予測することです。モデル構築の古典的なアプローチには、相互作用が含まれる前に主効果が常に含まれることがわかった。したがって、同じモデル内に共変量相互作用がある場合、2つの共変量と主効果のないモデルは存在できません。結果として、この関数は、この規則に従うモデル用語（例えば、後方または前方AICに基づいて）を慎重に選択します。バツバツXZZZバツ* Zバツ∗ZX*ZstepR LASSOの動作は異なるようです。すべてのパラメーターにペナルティが課されるため、主効果がゼロに縮小されるのに対し、最良の（たとえば、相互検証された）モデルの相互作用はゼロではないことは間違いありません。これは、特にRのglmnetパッケージを使用しているときにデータに見られます。上記の最初のルールに基づいて批判を受けました。つまり、最終的な交差検証されたLassoモデルには、非ゼロ相互作用の対応する主効果項が含まれていません。しかし、この文脈ではこの規則はやや奇妙に思えます。結局のところ、真のモデルのパラメーターがゼロかどうかという問題です。そうだと仮定しますが、相互作用はゼロではないので、LASSOはおそらくこれを識別し、正しいモデルを見つけます。実際、このモデルには実際にはノイズ変数である真のゼロの主効果が含まれていないため、このモデルからの予測はより正確になるようです。この根拠に基づいて批判に反論することはできますか、それともLASSOには相互作用期間の前に主な効果が含まれることに何らかの注意を払う必要がありますか？

25 machine-learning lasso glmnet shrinkage penalized

2

KKT対投げ縄回帰の制約なし定式化

L1ペナルティ付き回帰（別名lasso）は、2つの形式で表されます。2つの目的関数を 2つの異なる定式化は対象及び、等価 Karush-Kuhn-Tucker（KKT）条件を使用すると、最初の定式化の定常性条件が2番目の定式化の勾配を取得して0に設定するのと同等であることが簡単にわかります。は、最初の定式化の補完的なスラックネス条件であるQ1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, λ （| | β | | 1 − t ） = 0argminβQ2.argminβQ2. \text{argmin}_\beta \; Q_2. λ(||β||1−t)=0λ(||β||1−t)=0\lambda\left(||\beta||_1 - t\right) = 0、2番目の定式化のソリューションによって満たされることが保証されています。

20 regression lasso penalized

1

ペナルティ回帰における収縮パラメーターの可能な値の典型的な範囲は何ですか？

なげなわまたはリッジ回帰では、多くの場合またはαと呼ばれる収縮パラメーターを指定する必要があります。この値は、多くの場合、トレーニングデータのさまざまな値をチェックし、テストデータでR 2などの最良の結果が得られるかどうかを確認することにより、相互検証によって選択されます。チェックする値の範囲はどのくらいですか？それは（0 、1 ）？λλ\lambdaαα\alphaR2R2R^2(0,1)(0,1)(0,1)

16 regression lasso regularization ridge-regression penalized

1

LASSOを使用すると、R Squaredが回帰適合の適切な尺度にならないのはなぜですか？

LASSOを使用してモデルを近似する場合、R Squaredは理想的な尺度ではないことをいくつかの箇所で読みました。しかし、それがなぜなのか正確にはわかりません。さらに、最良の代替案を推奨できますか？

12 regression lasso r-squared penalized

1

ベイジアンスパイクおよびスラブとペナルティ付きメソッド

私はBSTS Rパッケージに関するSteven Scottのスライドを読んでいます（ここで見つけることができます：スライド）。ある時点で、構造的時系列モデルに多くのリグレッサを含めることについて話すとき、彼は回帰係数のスパイクとスラブの事前分布を導入し、それらはペナルティ付き手法と比較して優れていると述べています。スコット氏は、100個の予測子を含むデータセットの例を参照します。ペナルティ付きメソッドは、どの変数が含まれる/除外されるかについて単一の決定を行います。つまり、予測子の1つのサブセット、つまり可能なものの中から1つのモデルを決定します。210021002^{100} "なげなわ（および関連する）事前分布はスパースではなく、モードでスパース性を誘導しますが、事後分布では誘導しません" この時点で、彼はスパイクとスラブの事前分布を紹介します。私は直感を得たと思いますが、それについて確認したいと思います。それらは、基本的にブルートフォースアプローチを使用して、含めることができるリグレッサの各サブセットをテストするという意味で優れていますか？欠点はそうすることで計算時間ですか？「なげなわ（および関連）...事後分布ではない」と言うとき、彼は何を意味していると思いますか？

11 r bayesian feature-selection penalized bsts

2

収縮が巧妙な方法で適用される場合、それは常により効率的な推定量に対してよりよく機能しますか？

私は2つの推定量があるとと同じパラメータの一致推定量であるとなるように psdの意味でのしたがって、漸近的にはよりも効率的です。これらの2つの推定量は、異なる損失関数に基づいています。 β 2β0√βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0V1≤V2 β 1 β 2ん−−√（βˆ1- β0）→dN（0 、V1）、ん−−√（βˆ2- β0）→dN（0 、V2）n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)V1≤ V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 ここで、私の推定量の有限標本特性を改善するために、いくつかの縮小手法を探したいと思います。私は推定向上収縮技術見出さ仮定する有限のサンプル中にに等しい私MSEの値を与えるγ 2。これは私がして適用するための適切な収縮技術見つけることができることを意味するものではないβ 1 MSEに私に与えないだろう以下でγ 2を？ βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 言い換えると、縮小が巧妙に適用されている場合、より効率的な推定量に対しては常により効果的に機能しますか？

11 regression ridge-regression shrinkage penalized

2

データポイントよりも多くの変数を使用したモデリング

私は機械学習/モデリングの初心者です。この問題の背景を教えてください。私は、観測数があるデータセットを持っているしかし、変数の数があるのp 〜8000。最初に、このようなデータセットでモデルを構築することを検討することは理にかなっていますか、それとも、リッジ回帰や投げ縄などの変数選択手法を最初に検討する必要がありますか？この状況は過剰適合につながる可能性があることを読みました。それはすべてのMLテクニックに当てはまりますか、それともいくつかのテクニックはこれを他のテクニックよりうまく処理しますか？数学が多すぎなければ、p > nで数学が崩壊し始める理由についての簡単な説明をいただければ幸いです。n<200n<200n<200p∼8000p∼8000p\sim 8000p>np>np>n

11 regression machine-learning dimensionality-reduction penalized

2

回帰におけるB-スプラインVS高次多項式

具体的な例や課題は考えていません。私はbスプラインを使うのが初めてで、この関数を回帰のコンテキストでよりよく理解したかったのです。応答変数といくつかの予測子x 1、x 2、との関係を評価したいとします。。。、x p。予測子には、いくつかの数値変数といくつかのカテゴリカル変数が含まれています。yyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p 回帰モデルを当てはめた後、数値変数の1つ、たとえばが有意であるとしましょう。その後の論理的ステップは、オーバーフィッティングなしで関係を適切に説明するために、高次多項式、たとえばx 2 1とx 3 1が必要かどうかを評価することです。x1x1x_1x21x12x_1^2x31x13x_1^3 私の質問は：どの時点で、bスプラインまたは単純な高次多項式を選択しましたか。例：R： y ~ poly(x1,3) + x2 + x3 対 y ~ bs(x1,3) + x2 + x3 プロットを使用して、これら2つの間の選択を通知する方法と、プロットから本当に明確でない場合はどうなるか（例：大量のデータポイントが原因）とx 3の間の双方向相互作用項をどのように評価しますかx2x2x_2x3x3x_3 上記の方法は、モデルの種類によってどのように変わりますか高次多項式を使用せず、常にBスプラインをフィッティングして高い柔軟性にペナルティを課すことを検討しますか？

10 regression multiple-regression splines polynomial penalized

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

glmnetは過剰分散をどのように処理しますか？

カウントデータに対してテキストをモデル化する方法、特にこの機能を使用してlasso機能を削減する方法について質問があります。オンライン記事がN個あり、各記事のページビュー数があるとします。記事ごとに1グラムと2グラムを抽出しましたが、1,2グラムに対して回帰を実行したいと思いました。特徴（1,2グラム）は観測数よりもはるかに多いため、なげなわは特徴の数を減らすための良い方法です。また、glmnetなげなわ分析を実行するのに本当に便利であることがわかりました。しかし、ページビューのカウント数は、（分散>平均）overdispersedされていますが、glmnet提供していませんquasipoisson（明示的）またはnegative binomialが、poissonカウントデータについて。私が考えた解決策はlog transform、カウントデータ（社会科学者の間で一般的に使用される方法）であり、応答変数をほぼ正規分布に従うようにすることです。そのため、を使用して、ガウスファミリーでデータをモデル化できglmnetます。だから私の質問は、そうすることは適切ですか？または、glmnetケースglmnetハンドルにpoissonを使用しますquasipoissonか？または、他のRパッケージがこの状況を処理しますか？どうもありがとうございました！

9 poisson-distribution lasso glmnet overdispersion penalized

4

なげなわがペナルティパラメータに収束しないのはなぜですか？

LASSO回帰がどのように機能するかを調べるためにLASSO、最適なアルファパラメーターを選択することで回帰を最適化する小さなコードを書きました。 LASSO交差検証後、回帰がアルファパラメーターに対してこのような不安定な結果をもたらす理由を理解できません。これが私のPythonコードです： from sklearn.linear_model import Lasso from sklearn.cross_validation import KFold from matplotlib import pyplot as plt # generate some sparse data to play with import numpy as np import pandas as pd from scipy.stats import norm from scipy.stats import uniform ### generate your own data here n = 1000 …

7 r regression python lasso penalized

タグ付けされた質問 「penalized」

タグ付けされた質問「penalized」