統計とビッグデータ linear-model

4

変数の係数が大きいほど、モデルはその次元で「スイング」する能力が大きくなり、ノイズに適合する機会が増えると思います。モデルの分散と大きな係数との関係については合理的な意味を持っていると思いますが、オーバーフィットモデルでそれらが発生する理由についてはあまり意味がありません。それらが過剰適合の症状であり、係数の収縮はモデルの分散を減らすための技術であると言うのは間違っていますか？係数の縮小による正則化は、大きな係数は過剰適合モデルの結果であるという原則に基づいているようですが、おそらくこの手法の背後にある動機を誤解しているのでしょう。大きな係数は一般に過剰適合の症状であるという私の直感は、次の例から得られます。すべてがx軸上にある点をフィットさせたいとしましょう。これらの点がある多項式を簡単に構築できます。私たちのポイントがでているとしましょう。この手法は、10以上のすべての係数を提供します（1つの係数を除く）。さらにポイントを追加すると（したがって、多項式の次数が増加します）、これらの係数の大きさは急速に増加します。f （x ）= （x − x 1）（x − x 2）。。。。（X - X N - 1）（X - X N）のx = 1 、2 、3 、4nnnf(x)=(x−x1)(x−x2)....(x−xn−1)(x−xn)f（バツ）=（バツ−バツ1）（バツ−バツ2）。。。。（バツ−バツn−1）（バツ−バツn）f(x) = (x-x_1)(x-x_2)....(x-x_{n-1})(x-x_n)x=1,2,3,4バツ=1、2、3、4x=1,2,3,4 この例は、現在、モデル係数のサイズと生成されたモデルの「複雑さ」をどのように結びつけているのかを示していますが、実際の動作を実際に示すためにこのケースが不毛になることを心配しています。私は意図的にオーバーフィットモデル（2次サンプリングモデルから生成されたデータにフィットする10次多項式OLS）を構築し、私のモデルでほとんど小さな係数を見ることに驚きました： set.seed(123) xv = seq(-5,15,length.out=1e4) x=sample(xv,20) gen=function(v){v^2 + 7*rnorm(length(v))} y=gen(x) df = data.frame(x,y) model = lm(y~poly(x,10,raw=T), data=df) summary(abs(model$coefficients)) # Min. 1st Qu. Median …

33 regression variance linear-model bias regularization

3

Rはlmの欠損値をどのように処理しますか？

行列Aの各列に対してベクトルBを回帰させたいと思います。欠損データがない場合、これは簡単ですが、行列Aに欠損値が含まれている場合、Aに対する回帰はすべての行のみを含むように制限されます値が存在します（デフォルトのna.omit動作）。これにより、欠落データのない列に対して誤った結果が生成されます。列行列Bを行列Aの個々の列に対して回帰することはできますが、何千回も回帰を行う必要があり、これは非常に遅く、洗練されていません。na.exclude機能は、このような場合のために設計されているように見えるが、私はそれを動作させることはできません。ここで何が間違っていますか？重要な場合、OSXでR 2.13を使用します。 A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) # Missing value in first column; now we have 9 residuals A[1,1] = NA dim(lm(A~B)$residuals) #[1] 9 2 (the expected 9 residuals, given na.omit() is the default) # …

32 r missing-data linear-model

2

線形回帰モデルの係数を見つけるために勾配降下が必要ですか？

Coursera教材を使用して機械学習を学習しようとしていました。この講義では、Andrew Ngは勾配降下アルゴリズムを使用して、誤差関数（コスト関数）を最小化する線形回帰モデルの係数を見つけます。線形回帰の場合、勾配降下が必要ですか？誤差関数を分析的に微分し、係数を解くためにゼロに設定できるようです。そうですか？

31 regression machine-learning linear-model gradient-descent

5

多重線形回帰の最小二乗推定量を導き出す方法は？

単純な線形回帰のケースでは、最小二乗推定量、あなたが知っている必要はないように推定するために、β 1 = Σ （X I - ˉ X）（Y I - ˉ Y）y= β0+ β1バツy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1= ∑ （x私− x¯）（y私− y¯）∑ （x私− x¯）2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 私がしたとし、どのように私は導出ん推定することなく？またはこれは不可能ですか？β 1 β 2y= β1バツ1+ β2バツ2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2

30 regression multiple-regression generalized-linear-model linear-model

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

OLSモデルの係数が（nk）自由度のt分布に従うことの証明

バックグラウンド回帰モデルに係数がある通常の最小二乗モデルがあるとします。 kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} ここで、は係数のベクトル、は次で定義される設計行列です。ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X = ⎛⎝⎜⎜⎜⎜⎜⎜11⋮1バツ11バツ21バツn 1バツ12…⋱………バツ1（k − 1 ）⋮⋮バツn（k − 1 ）⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots …

29 regression linear-model least-squares t-distribution

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

7

行列の列間の線形依存性のテスト

行列式がゼロのセキュリティリターンの相関行列があります。（サンプル相関行列と対応する共分散行列は理論的には正定でなければならないため、これは少し驚くべきことです。）私の仮説は、少なくとも1つの証券が他の証券に線形に依存しているということです。Rに線形依存関係の各列を順番にテストする関数がありますか？たとえば、1つのアプローチは、相関行列を一度に1つのセキュリティで構築し、各ステップで行列式を計算することです。行列式= 0の場合、他の証券の線形結合である証券を特定したため停止します。そのような行列の線形依存性を特定する他の技術が評価されます。

26 r correlation pca linear-model svd

2

一般線形モデルと一般線形モデル（恒等リンク関数を使用？）

これは私の最初の投稿ですので、いくつかの標準に従っていない場合は私に気をつけてください！私は自分の質問を検索しましたが、何も起こりませんでした。私の質問は、一般的な線形モデリング（GLM）と一般化線形モデリング（GZLM）の実際の違いに関するものです。私の場合、GZLMに対して、共変量としてのいくつかの連続変数とANCOVAのいくつかの要因になります。各変数の主な効果と、モデルで概説する3方向の相互作用を調べたいと思います。この仮説はANCOVAでテストされているか、GZLMを使用してテストされています。ANCOVAのような一般的な線形モデルの実行の背後にある数学プロセスと推論をある程度理解し、GZLMが線形モデルと従属変数を接続するリンク関数を許可していることをある程度理解しています本当に数学を理解している）。私が本当にしないこと GZLMで使用される確率分布が正常な場合（つまり、アイデンティティリンク関数？）に、一方の分析を実行し、もう一方の分析を実行しない実際的な違いまたは理由を理解してください。実行すると、結果が大きく異なります。どちらでも実行できますか？私のデータは多少正常ではありませんが、ANCOVAとGZLMの両方である程度機能します。どちらの場合でも私の仮説は支持されますが、GZLMではp値は「より良い」です。私の考えでは、ANCOVAは恒等リンク関数を使用した正規分布従属変数を持つ線形モデルであり、GZLMに入力できるものとまったく同じでしたが、これらはまだ異なります。可能であれば、これらの質問に光を当ててください。最初の回答に基づいて、追加の質問があります：それらが利用した有意性検定（すなわち、F検定対Wald Chi Square）を除いてそれらが同一である場合、どちらを使用するのが最も適切でしょうか？ANCOVAは「go-toメソッド」ですが、なぜF検定が好ましいのかわかりません。誰かが私のためにこの質問にいくらか光を当てることができますか？ありがとう！

25 modeling linear-model

2

ベイジアン投げ縄vs通常の投げ縄

lassoにはさまざまな実装ソフトウェアが用意されています。さまざまなフォーラムで、ベイジアンアプローチと頻度主義的アプローチについて多くのことを話し合っています。私の質問はなげなわ特有のものです - ベイジアンなげなわと通常のなげなわの違いや利点は何ですか？パッケージ内の実装の2つの例を次に示します。 # just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) それで、いつ私は1つまたは他の方法に行くべきですか？それとも同じですか？

24 r machine-learning linear-model lasso

2

最小二乗回帰の段階的な線形代数計算

Rの線形混合モデルに関する質問の前編として、および初心者/中級の統計愛好家の参考として共有するために、独立した「Q＆Aスタイル」として、単純な線形回帰の係数と予測値。この例は、Rの組み込みデータセットをmtcars使用しており、独立変数として機能する車両が消費するガロンあたりのマイル数として設定され、車の重量（連続変数）に対して回帰し、シリンダー数を相互作用のない3つのレベル（4、6、または8）の係数。編集：あなたがこの質問に興味があるなら、あなたは間違いなくCVの外のマシュー・ドゥルリーによるこの投稿で詳細で満足のいく答えを見つけるでしょう。

22 r regression linear-model lm

3

不等分散の回帰モデリング

残差分散が説明変数に明らかに依存している線形モデル（lm）を近似したいと思います。私がこれを行う方法は、ガンマファミリでglmを使用して分散をモデル化し、その逆関数をlm関数の重みに入れることです（例：http : //nitro.biosci.arizona.edu/r/chapter31 .pdf）私は考えていた：これが唯一のテクニックですか？関連する他のアプローチは何ですか？このタイプのモデリングに関連するRパッケージ/機能は何ですか？（glm、lm以外）

22 r generalized-linear-model linear-model heteroscedasticity gamlss

1

線形モデルとしての一般的な統計検定

（更新：私はこれをより深く掘り下げ、結果をここに投稿しました）名前付き統計検定のリストは膨大です。一般的なテストの多くは、1標本t検定はただである例えば、単純な線形モデルから推論に頼る=β+εyのヌルモデルに対してテストされ、Y =μ+εことすなわちβ=μ μは、いくつかのヌルです値-通常はμ= 0。これは、名前付きモデルのローテート学習、それらを使用するタイミング、およびそれらが互いに関係がないかのように仮定することよりも、教育目的にとってかなり有益であることがわかりました。そのアプローチは促進しますが、理解を促進しません。ただし、これを収集する優れたリソースが見つかりません。私は、モデルからの推論の方法よりも、基礎となるモデル間の同等性にもっと興味があります。私が見る限り、これらすべての線形モデルの尤度比検定は、「古典的な」推論と同じ結果をもたらします。エラー項を無視し、すべての帰無仮説が効果の欠如であると仮定して、これまでに学んだ同等性を次に示します。ε 〜N（0 、σ2）ε〜N（0、σ2）\varepsilon \sim \mathcal N(0, \sigma^2) 1標本t検定：。y=β0H0：β0= 0y=β0H0：β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 対応のある標本のt検定： y2− y1= β0H0：β0= 0y2−y1=β0H0：β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 これは、ペアワイズ差分の1サンプルt検定と同じです。 2標本t検定： y= β1∗ x私+ β0H0：β1= 0y=β1∗バツ私+β0H0：β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: …

22 regression correlation anova t-test linear-model

5

線形モデルの仮定と残差が正規分布していない場合の対処

私は、線形回帰の仮定が少し混乱しています。これまでのところ、次のことを確認しました。すべての説明変数は応答変数と線形に相関していました。（これが事実でした）説明変数間に共線性がありました。（共線性はほとんどありませんでした）。私のモデルのデータポイントのクックの距離は1未満です（これは、すべての距離が0.4未満であるため、影響ポイントがないためです）。残差は正規分布します。（これはそうではないかもしれません）しかし、私は次を読みました：（a）従属変数および/または独立変数の分布自体が著しく非正規である、および/または（b）線形性の仮定に違反しているため、正規性の違反がしばしば発生します。質問1 これにより、独立変数と従属変数を正規分布する必要があるかのように聞こえますが、私が知る限り、そうではありません。私の従属変数は、独立変数の1つと同様に正規分布していません。彼らはすべきですか？質問2 残差のQQnormalプロットは次のようになります。これは正規分布とわずかに異なりshapiro.test、残差が正規分布からのものであるという帰無仮説も棄却します。 > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差と近似値は次のようになります。残差が正規分布していない場合はどうすればよいですか？線形モデルはまったく役に立たないということですか？

22 linear-model residuals assumptions normality-assumption

1

Rの線形モデルの新しい入力から値を予測するにはどうすればよいですか？

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 R：で線形モデルを作成しましたmod = lm(train_y ~ train_x)。Xのリストを渡して、その予測/推定/予測Yを取得しpredict()たいのですが、それは何か他のもののためだと思うか、それを使用する方法がわかりません。私は自分のモデルの係数を取ることで推測しているので、手動でtest_x変数をプラグインし、予測されたYを取得できますが、これを行うためのより効率的な方法があると推測しています。

21 r forecasting linear-model

タグ付けされた質問 「linear-model」

タグ付けされた質問「linear-model」