統計とビッグデータ regression

2

時系列分析で「永続性」という用語の意味を教えてもらえますか？それは計量経済学と応用回帰に関するものです。

16 regression time-series econometrics terminology

2

一般に、係数を適切に比較するために、回帰の独立変数を標準化します（このように、それらは同じ単位：標準偏差を持ちます）。ただし、パネル/縦断データでは、特に階層モデルを推定する場合、データを標準化する方法がわかりません。それが潜在的な問題になる理由を見るために、期間に沿って個人があり、従属変数と1つの独立変数を測定したと仮定します。。完全なプーリング回帰を実行する場合、次のようにデータを標準化しても構いません：、t-統計。一方、プールされていない回帰、つまり個人ごとに1つの回帰を当てはめる場合は、データセット全体（Rコード）ではなく、個人のみでデータを標準化する必要があります。i = 1 、… 、n私=1、…、ni = 1, \ldots, nt = 1 、… 、Tt=1、…、Tt=1,\ldots, Ty私、ty私、ty_{i,t}バツ私、tバツ私、tx_{i,t}x 。z= （x − 平均（x ））/ sd （x ）バツ。z=（バツ−平均（バツ））/SD（バツ）x.z = (x- \text{mean}(x))/\text{sd}(x) for (i in 1:n) { for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,]) } ただし、個人によるさまざまな切片を持つ単純な階層モデルに適合する場合、収縮推定量を使用します。つまり、プール回帰と非プール回帰の間でモデルを推定します。データを標準化するにはどうすればよいですか？プールされた回帰のようにデータ全体を使用していますか？プールされていない場合のように、個人のみを使用していますか？

16 r regression standardization

2

線形モデル実行Rからの結果の集約

多くの場合、回帰モデリングは科学よりも「芸術的」であるため、回帰構造の多数の反復をテストすることがよくあります。「最適な」モデルを見つけるために、これらの複数のモデルの実行からの情報を要約する効率的な方法は何ですか？私が使用したアプローチの1つは、すべてのモデルをリストに入れ、summary()そのリスト全体で実行することですが、比較するより効率的な方法があると思いますか？サンプルコードとモデル： ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14) trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69) group <- gl(2,10,20, labels=c("Ctl","Trt")) weight <- c(ctl, trt) lm1 <- lm(weight ~ group) lm2 <- lm(weight ~ group - 1) lm3 <- lm(log(weight) ~ group - 1) #Draw comparisions between models 1 - 3? models <- list(lm1, lm2, lm3) lapply(models, summary)

16 r regression

1

係数が線形制限の対象となるRでのモデルの適合

係数をバインドする1つ（または複数）の厳密な線形制限が利用可能な場合、Rでモデル式をどのように定義する必要がありますか。例として、単純な線形回帰モデルでb1 = 2 * b0であることを知っているとしましょう。ありがとうございました！

16 r regression modeling

1

ロジスティック回帰-多重共線性の懸念/落とし穴

ロジスティック回帰では、OLS回帰のように多重共線性について心配する必要がありますか？たとえば、多重共線性が存在するロジスティック回帰では、ベータ係数からの推論に注意する必要がありますか（OLS回帰の場合と同様）。 OLS回帰の場合、高い多重共線性の1つの「修正」はリッジ回帰です。ロジスティック回帰の場合、そのようなものはありますか？また、変数のドロップ、または変数の結合。ロジスティック回帰における多重共線性の影響を低減するための合理的なアプローチは何ですか？それらは本質的にOLSと同じですか？（注：これは、設計された実験の目的ではありません）

16 regression logistic multicollinearity

1

高次元回帰：

高次元回帰の分野での研究を読み上げようとしています。場合より大きいN、即ち、P > > N。log p / nという用語は、回帰推定量の収束率の観点から頻繁に現れるようです。pppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. 通常、これはがよりも小さいことも意味し。logplog⁡p\log pnnn この比率が非常に顕著である理由について直感はありますか？logp/nlog⁡p/n\log p/n また、文献にば、場合、高次元の回帰問題は複雑になり。なぜそうですか？logp≥nlog⁡p≥n\log p \geq n とが互いに比較してどれだけ速く成長するかという問題を議論する良いリファレンスはありますか？pppnnn

16 regression lasso convergence high-dimensional

2

T分布が線形回帰係数の仮説検定に使用されるのはなぜですか？

実際には、標準のT検定を使用して線形回帰係数の有意性を確認するのが一般的です。計算の仕組みは私にとって理にかなっています。 T分布を使用して、線形回帰仮説検定で使用される標準検定統計量をモデル化できるのはなぜですか？私がここで言及している標準の検定統計量： T0=βˆ−β0SE(βˆ)T0=β^−β0SE(β^) T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}

16 regression hypothesis-testing linear-model t-distribution

2

150個の機能のセットがあり、それらの多くは互いに高度に相関しています。私の目標は、範囲が1〜8の離散変数の値を予測することです。サンプルサイズは550で、10倍の交差検定を使用しています。知る限りでは、正則化方法（Lasso、ElasticNet、Ridge）の中で、Ridgeは機能間の相関がより厳密です。そのため、Ridgeを使用すると、より正確な予測が得られると予想していました。ただし、私の結果は、LassoまたはElasticの平均絶対誤差が約0.61であるのに対し、このスコアはリッジ回帰では0.97であることを示しています。これの説明は何だろうか。これは私が多くの機能を持っているからであり、Lassoは冗長な機能を取り除いて一種の機能選択を行うため、パフォーマンスが向上しますか？

16 regression lasso regularization ridge-regression elastic-net

3

ベータ分布とロジスティック回帰モデルの関係は何ですか？

私の質問は次のとおりです。ベータ分布とロジスティック回帰モデルの係数の数学的な関係は何ですか？例として、ロジスティック（シグモイド）関数は f(x)=11+exp(−x)f(x)=11+exp⁡(−x)f(x) = \frac{1}{1+\exp(-x)} また、ロジスティック回帰モデルで確率をモデル化するために使用されます。ましょAAA二分である(0,1)(0,1)(0,1)採点結果とXXXデザインマトリックス。ロジスティック回帰モデルは次で与えられます P(A=1|X)=f(Xβ).P(A=1|X)=f(Xβ).P(A=1|X) = f(X \beta). 注XXX一定の最初の列有する111（切片）及びββ\beta回帰係数の列ベクトルです。例えば、我々は1（標準正常）回帰を有する場合xxx選択しますβ0=1β0=1\beta_0=1（切片）およびβ1=1β1=1\beta_1=1、我々は、得られる「確率分布」をシミュレートすることができます。このプロットは、ベータ分布を思い出させます（他の選択のプロットと同様ββ\beta）。その密度は g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p−1)(1−y)(q−1).g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p−1)(1−y)(q−1).g(y;p,q) = \frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} y^{(p-1)} (1-y)^{(q-1)}. 最尤法またはモーメント法を使用して、P （A = 1 | X ）の分布からpppおよびを推定することができます。したがって、私の質問は次のようになります：βとpとqの選択の関係は何ですか？これは、そもそも上記の2変量の場合を扱います。qqqP(A=1|X)P(A=1|X)P(A=1|X)ββ\betapppqqq

16 regression logistic mathematical-statistics beta-distribution

4

なぜ結果変数が予測子に「回帰する」と言うのですか？

この用語の直感的な説明はありますか？なぜこのようになっているのか、結果に対して予測子が回帰していないのか？理想的には、この用語が存在する理由を適切に説明することで、生徒がそれを覚えて、間違った言い方をしないようにすることを望んでいます。

16 regression terminology teaching

1

部分最小二乗、縮退ランク回帰、主成分回帰の関係は何ですか？

ランクの低下回帰と主成分回帰は、部分最小二乗の特別な場合にすぎませんか？このチュートリアル（6ページの「目的の比較」）では、XまたはYを投影せずに部分最小二乗（つまり「部分的ではない」）を行うと、ランク回帰または主成分回帰に対応するようになると述べています。このSASドキュメントページのセクション「ランクの回帰の削減」および「メソッド間の関係」で同様の記述が行われています。より基本的なフォローアップの質問は、それらが同様の基礎となる確率モデルを持っているかどうかです。

16 regression pca dimensionality-reduction partial-least-squares reduced-rank-regression

3

判別分析とロジスティック回帰

判別分析の長所をいくつか見つけましたが、それらについて質問があります。そう：クラスが十分に分離されている場合、ロジスティック回帰のパラメーター推定値は驚くほど不安定です。係数は無限大になる可能性があります。LDAはこの問題の影響を受けません。特徴の数が少なく、予測子分布が各クラスでほぼ正規の場合、線形判別モデルはロジスティック回帰モデルよりも安定しています。XXX 安定性とは何ですか、なぜそれが重要なのですか？（ロジスティック回帰がその仕事に適している場合、なぜ安定性を気にする必要があるのですか？） LDAは、データの低次元ビューも提供するため、3つ以上の応答クラスがある場合に人気があります。私はそれを理解していません。LDAは低次元ビューをどのように提供しますか？もっと長所や短所を挙げられるなら、それはいいことです。

16 regression logistic multivariate-analysis discriminant-analysis

1

「リラックスした投げ縄」が標準の投げ縄と異なるのはなぜですか？

我々は、データのセットで開始した場合、それに投げ縄を適用し、溶液得るβ Lを、我々は、データセットに再び投げ縄を適用することができる（X S、Y ）、Sは非ゼロの集合であります指標β Lは、ソリューション、取得するβ RのL、いわゆる「緩和LASSO」ソリューション（私が間違っている場合は、正しい私を！）。溶液β L満足しなければならない条件Karush-キューン・タッカー（KKT）のための（X 、Y ）(X,Y)(X,Y)(X,Y)βLβL\beta^L(XS,Y)(XS,Y)(X_S, Y)SSSβLβL\beta^LβRLβRL\beta^{RL}βLβL\beta^L(X,Y)(X,Y)(X,Y)しかし、のKKT条件の形式を考えると、これらも満たすのではないでしょうか？もしそうなら、もう一度LASSOを行う意味は何ですか？(XS,Y)(XS,Y)(X_S, Y) この質問は、「二重投げ縄」を行うか、投げ縄を2回実行することの利点ですか？

16 regression optimization lasso regularization shrinkage

2

GLMが変換された変数を持つLMと異なる理由

このコースの配布資料（ページ1）で説明されているように、線形モデルは次の形式で記述できます。 y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, ここで、yyyは応答変数、 xixix_{i}はithithi^{th}説明変数です。多くの場合、テストの前提を満たす目的で、応答変数を変換できます。たとえば、各yiyiy_i対数関数を適用します。応答変数の変換は、GLMの実行と同等ではありません。 GLMは、次の形式で記述できます（コースの配布資料（3ページ）から） g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, ここで、は単なる別の記号であり、コースの配布資料の2ページから理解できます。はリンク関数と呼ばれます。uuuyyyg()g()g() コース内のスライドから変換された変数を使用したGLMとLMの違いを本当に理解していません。それで私を助けてもらえますか？

16 regression generalized-linear-model data-transformation linear-model

1

ペナルティ回帰における収縮パラメーターの可能な値の典型的な範囲は何ですか？

なげなわまたはリッジ回帰では、多くの場合またはαと呼ばれる収縮パラメーターを指定する必要があります。この値は、多くの場合、トレーニングデータのさまざまな値をチェックし、テストデータでR 2などの最良の結果が得られるかどうかを確認することにより、相互検証によって選択されます。チェックする値の範囲はどのくらいですか？それは（0 、1 ）？λλ\lambdaαα\alphaR2R2R^2(0,1)(0,1)(0,1)

16 regression lasso regularization ridge-regression penalized

タグ付けされた質問 「regression」

タグ付けされた質問「regression」