タグ付けされた質問 「linear-model」

確率変数が有限数のパラメーターで線形である関数によって1つ以上の確率変数に関連付けられているモデルを指します。

4
(なぜ)オーバーフィットモデルは大きな係数を持つ傾向がありますか?
変数の係数が大きいほど、モデルはその次元で「スイング」する能力が大きくなり、ノイズに適合する機会が増えると思います。モデルの分散と大きな係数との関係については合理的な意味を持っていると思いますが、オーバーフィットモデルでそれらが発生する理由についてはあまり意味がありません。それらが過剰適合の症状であり、係数の収縮はモデルの分散を減らすための技術であると言うのは間違っていますか?係数の縮小による正則化は、大きな係数は過剰適合モデルの結果であるという原則に基づいているようですが、おそらくこの手法の背後にある動機を誤解しているのでしょう。 大きな係数は一般に過剰適合の症状であるという私の直感は、次の例から得られます。 すべてがx軸上にある点をフィットさせたいとしましょう。これらの点がある多項式を簡単に構築できます。私たちのポイントがでているとしましょう。この手法は、10以上のすべての係数を提供します(1つの係数を除く)。さらにポイントを追加すると(したがって、多項式の次数が増加します)、これらの係数の大きさは急速に増加します。f (x )= (x − x 1)(x − x 2)。。。。(X - X N - 1)(X - X N)のx = 1 、2 、3 、4nnnf(x)=(x−x1)(x−x2)....(x−xn−1)(x−xn)f(バツ)=(バツ−バツ1)(バツ−バツ2)。。。。(バツ−バツn−1)(バツ−バツn)f(x) = (x-x_1)(x-x_2)....(x-x_{n-1})(x-x_n)x=1,2,3,4バツ=1、2、3、4x=1,2,3,4 この例は、現在、モデル係数のサイズと生成されたモデルの「複雑さ」をどのように結びつけているのかを示していますが、実際の動作を実際に示すためにこのケースが不毛になることを心配しています。私は意図的にオーバーフィットモデル(2次サンプリングモデルから生成されたデータにフィットする10次多項式OLS)を構築し、私のモデルでほとんど小さな係数を見ることに驚きました: set.seed(123) xv = seq(-5,15,length.out=1e4) x=sample(xv,20) gen=function(v){v^2 + 7*rnorm(length(v))} y=gen(x) df = data.frame(x,y) model = lm(y~poly(x,10,raw=T), data=df) summary(abs(model$coefficients)) # Min. 1st Qu. Median …

3
Rはlmの欠損値をどのように処理しますか?
行列Aの各列に対してベクトルBを回帰させたいと思います。欠損データがない場合、これは簡単ですが、行列Aに欠損値が含まれている場合、Aに対する回帰はすべての行のみを含むように制限されます値が存在します(デフォルトのna.omit動作)。これにより、欠落データのない列に対して誤った結果が生成されます。列行列Bを行列Aの個々の列に対して回帰することはできますが、何千回も回帰を行う必要があり、これは非常に遅く、洗練されていません。na.exclude機能は、このような場合のために設計されているように見えるが、私はそれを動作させることはできません。ここで何が間違っていますか?重要な場合、OSXでR 2.13を使用します。 A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) # Missing value in first column; now we have 9 residuals A[1,1] = NA dim(lm(A~B)$residuals) #[1] 9 2 (the expected 9 residuals, given na.omit() is the default) # …

2
線形回帰モデルの係数を見つけるために勾配降下が必要ですか?
Coursera教材を使用して機械学習を学習しようとしていました。この講義では、Andrew Ngは勾配降下アルゴリズムを使用して、誤差関数(コスト関数)を最小化する線形回帰モデルの係数を見つけます。 線形回帰の場合、勾配降下が必要ですか?誤差関数を分析的に微分し、係数を解くためにゼロに設定できるようです。そうですか?

5
多重線形回帰の最小二乗推定量を導き出す方法は?
単純な線形回帰のケースでは、最小二乗推定量、あなたが知っている必要はないように推定するために、β 1 = Σ (X I - ˉ X)(Y I - ˉ Y)y= β0+ β1バツy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1= ∑ (x私− x¯)(y私− y¯)∑ (x私− x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 私がしたとし、どのように私は導出ん推定することなく?またはこれは不可能ですか?β 1 β 2y= β1バツ1+ β2バツ2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
OLSモデルの係数が(nk)自由度のt分布に従うことの証明
バックグラウンド 回帰モデルに係数がある通常の最小二乗モデルがあるとします。 kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} ここで、は係数のベクトル、は次で定義される設計行列です。ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X = ⎛⎝⎜⎜⎜⎜⎜⎜11⋮1バツ11バツ21バツn 1バツ12…⋱………バツ1(k − 1 )⋮⋮バツn(k − 1 )⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots …

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

7
行列の列間の線形依存性のテスト
行列式がゼロのセキュリティリターンの相関行列があります。(サンプル相関行列と対応する共分散行列は理論的には正定でなければならないため、これは少し驚くべきことです。) 私の仮説は、少なくとも1つの証券が他の証券に線形に依存しているということです。Rに線形依存関係の各列を順番にテストする関数がありますか? たとえば、1つのアプローチは、相関行列を一度に1つのセキュリティで構築し、各ステップで行列式を計算することです。行列式= 0の場合、他の証券の線形結合である証券を特定したため停止します。 そのような行列の線形依存性を特定する他の技術が評価されます。

2
一般線形モデルと一般線形モデル(恒等リンク関数を使用?)
これは私の最初の投稿ですので、いくつかの標準に従っていない場合は私に気をつけてください!私は自分の質問を検索しましたが、何も起こりませんでした。 私の質問は、一般的な線形モデリング(GLM)と一般化線形モデリング(GZLM)の実際の違いに関するものです。私の場合、GZLMに対して、共変量としてのいくつかの連続変数とANCOVAのいくつかの要因になります。各変数の主な効果と、モデルで概説する3方向の相互作用を調べたいと思います。この仮説はANCOVAでテストされているか、GZLMを使用してテストされています。ANCOVAのような一般的な線形モデルの実行の背後にある数学プロセスと推論をある程度理解し、GZLMが線形モデルと従属変数を接続するリンク関数を許可していることをある程度理解しています本当に数学を理解している)。私が本当にしないこと GZLMで使用される確率分布が正常な場合(つまり、アイデンティティリンク関数?)に、一方の分析を実行し、もう一方の分析を実行しない実際的な違いまたは理由を理解してください。実行すると、結果が大きく異なります。どちらでも実行できますか?私のデータは多少正常ではありませんが、ANCOVAとGZLMの両方である程度機能します。どちらの場合でも私の仮説は支持されますが、GZLMではp値は「より良い」です。 私の考えでは、ANCOVAは恒等リンク関数を使用した正規分布従属変数を持つ線形モデルであり、GZLMに入力できるものとまったく同じでしたが、これらはまだ異なります。 可能であれば、これらの質問に光を当ててください。 最初の回答に基づいて、追加の質問があります: それらが利用した有意性検定(すなわち、F検定対Wald Chi Square)を除いてそれらが同一である場合、どちらを使用するのが最も適切でしょうか?ANCOVAは「go-toメソッド」ですが、なぜF検定が好ましいのかわかりません。誰かが私のためにこの質問にいくらか光を当てることができますか?ありがとう!

2
ベイジアン投げ縄vs通常の投げ縄
lassoにはさまざまな実装ソフトウェアが用意されています。さまざまなフォーラムで、ベイジアンアプローチと頻度主義的アプローチについて多くのことを話し合っています。私の質問はなげなわ特有のものです - ベイジアンなげなわと通常のなげなわの違いや利点は何ですか? パッケージ内の実装の2つの例を次に示します。 # just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) それで、いつ私は1つまたは他の方法に行くべきですか?それとも同じですか?

2
最小二乗回帰の段階的な線形代数計算
Rの線形混合モデルに関する質問の前編として、および初心者/中級の統計愛好家の参考として共有するために、独立した「Q&Aスタイル」として、単純な線形回帰の係数と予測値。 この例は、Rの組み込みデータセットをmtcars使用しており、独立変数として機能する車両が消費するガロンあたりのマイル数として設定され、車の重量(連続変数)に対して回帰し、シリンダー数を相互作用のない3つのレベル(4、6、または8)の係数。 編集:あなたがこの質問に興味があるなら、あなたは間違いなくCVの外のマシュー・ドゥルリーによるこの投稿で詳細で満足のいく答えを見つけるでしょう。

3
不等分散の回帰モデリング
残差分散が説明変数に明らかに依存している線形モデル(lm)を近似したいと思います。 私がこれを行う方法は、ガンマファミリでglmを使用して分散をモデル化し、その逆関数をlm関数の重みに入れることです(例:http : //nitro.biosci.arizona.edu/r/chapter31 .pdf) 私は考えていた: これが唯一のテクニックですか? 関連する他のアプローチは何ですか? このタイプのモデリングに関連するRパッケージ/機能は何ですか?(glm、lm以外)

1
線形モデルとしての一般的な統計検定
(更新:私はこれをより深く掘り下げ、結果をここに投稿しました) 名前付き統計検定のリストは膨大です。一般的なテストの多くは、1標本t検定はただである例えば、単純な線形モデルから推論に頼る=β+εyのヌルモデルに対してテストされ、Y =μ+εことすなわちβ=μ μは、いくつかのヌルです値-通常はμ= 0。 これは、名前付きモデルのローテート学習、それらを使用するタイミング、およびそれらが互いに関係がないかのように仮定することよりも、教育目的にとってかなり有益であることがわかりました。そのアプローチは促進しますが、理解を促進しません。ただし、これを収集する優れたリソースが見つかりません。私は、モデルからの推論の方法よりも、基礎となるモデル間の同等性にもっと興味があります。私が見る限り、これらすべての線形モデルの尤度比検定は、「古典的な」推論と同じ結果をもたらします。 エラー項を無視し、すべての帰無仮説が効果の欠如であると仮定して、これまでに学んだ同等性を次に示します。ε 〜N(0 、σ2)ε〜N(0、σ2)\varepsilon \sim \mathcal N(0, \sigma^2) 1標本t検定: 。y=β0H0:β0= 0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 対応のある標本のt検定: y2− y1= β0H0:β0= 0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 これは、ペアワイズ差分の1サンプルt検定と同じです。 2標本t検定: y= β1∗ x私+ β0H0:β1= 0y=β1∗バツ私+β0H0:β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: …

5
線形モデルの仮定と残差が正規分布していない場合の対処
私は、線形回帰の仮定が少し混乱しています。 これまでのところ、次のことを確認しました。 すべての説明変数は応答変数と線形に相関していました。(これが事実でした) 説明変数間に共線性がありました。(共線性はほとんどありませんでした)。 私のモデルのデータポイントのクックの距離は1未満です(これは、すべての距離が0.4未満であるため、影響ポイントがないためです)。 残差は正規分布します。(これはそうではないかもしれません) しかし、私は次を読みました: (a)従属変数および/または独立変数の分布自体が著しく非正規である、および/または(b)線形性の仮定に違反しているため、正規性の違反がしばしば発生します。 質問1 これにより、独立変数と従属変数を正規分布する必要があるかのように聞こえますが、私が知る限り、そうではありません。私の従属変数は、独立変数の1つと同様に正規分布していません。彼らはすべきですか? 質問2 残差のQQnormalプロットは次のようになります。 これは正規分布とわずかに異なりshapiro.test、残差が正規分布からのものであるという帰無仮説も棄却します。 > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差と近似値は次のようになります。 残差が正規分布していない場合はどうすればよいですか?線形モデルはまったく役に立たないということですか?

1
Rの線形モデルの新しい入力から値を予測するにはどうすればよいですか?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 R:で線形モデルを作成しましたmod = lm(train_y ~ train_x)。Xのリストを渡して、その予測/推定/予測Yを取得しpredict()たいのですが、それは何か他のもののためだと思うか、それを使用する方法がわかりません。 私は自分のモデルの係数を取ることで推測しているので、手動でtest_x変数をプラグインし、予測されたYを取得できますが、これを行うためのより効率的な方法があると推測しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.