統計とビッグデータ least-squares

2

どのような状況で、OLSの代わりに正則化方法（リッジ、投げ縄または最小角度回帰）の使用を検討する必要がありますか？これが議論の舵取りに役立つ場合、私の主な関心は予測精度の向上です。

83 regression least-squares lasso ridge-regression fused-lasso

3

リッジ回帰推定値は、残差平方和とサイズのペナルティを最小化することを理解していますββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] ただし、X'Xの対角に小さな定数を追加するだけでは、βridgeβridge\beta_\text{ridge}が\ beta_ \ text {OLS}と異なるという事実の重要性を完全には理解していません。確かに、βOLSβOLS\beta_\text{OLS}X′XX′XX'X βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y 私の本では、これにより推定が数値的により安定になると述べていますが、なぜですか？数値安定性は、リッジ推定値の0方向への収縮に関連していますか、それとも単なる偶然ですか？

59 regression least-squares ridge-regression shrinkage

3

平均絶対誤差または二乗平均平方根誤差？

なぜ平均絶対誤差（MAE）ではなく、ルート平均二乗誤差（RMSE）を使用するのですか？こんにちは計算で生成されたエラーを調査してきました。最初は、エラーをルート平均正規化二乗誤差として計算しました。少し詳しく見てみると、誤差を2乗すると、小さい誤差よりも大きい誤差の方が重みが大きくなり、誤差の推定値が奇数の外れ値に向かって歪んでいます。振り返ってみると、これは非常に明白です。だから私の質問-どのような場合に二乗平均平方根誤差は平均絶対誤差よりも適切な誤差の尺度になるでしょうか？後者は私にとってより適切であると思われますか、何か不足していますか？これを説明するために、以下の例を添付しました。散布図は、良好な相関関係を持つ2つの変数を示しています。右のグラフの2つのヒストグラムは、正規化されたRMSE（上）とMAE（下）を使用したY（観測値）とY（予測値）の間の誤差です。このデータには重要な異常値はなく、MAEはRMSEよりも低いエラーを示します。MAE以外が望ましい、一方のエラー測定値をもう一方よりも使用するための合理的なものはありますか？

59 least-squares mean rms mae

3

Yを正規に配布する必要があるという誤解はどこから来ますか？

一見信頼できるソースは、従属変数は正規分布でなければならないと主張しています。モデルの仮定：は正規分布、エラーは正規分布、独立、は固定、定数分散です。E I〜N （0 、σ 2）X σ 2YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 ペンシルベニア州立大学、STAT 504離散データの分析第二に、線形回帰分析では、すべての変数が多変量正規である必要があります。統計解、線形回帰の仮定これは、応答変数に正規分布がある場合に適切です。ウィキペディア、一般化線形モデルこの誤解がどのように、またはなぜ広まったのか、良い説明はありますか？その起源は知られていますか？関連する線形回帰と応答変数に関する仮定

45 regression least-squares linear-model dependent-variable

5

OLS残差が正規分布していない場合の回帰

このサイトには、OLS残差が漸近的に正規分布しているかどうかを判断する方法を議論するいくつかのスレッドがあります。Rコードで残差の正規性を評価する別の方法はこのすばらしい答えで提供されます。これは、標準化された残差と観測された残差の実際の違いに関する別の議論です。しかし、この例のように、残差は明らかに正規分布していないとしましょう。ここには数千の観測があり、明らかに正規分布の残差の仮定を拒否しなければなりません。問題に対処する1つの方法は、回答で説明されているように、何らかの形式の堅牢な推定量を使用することです。しかし、私はOLSに限定されず、実際、他のglmまたは非線形の方法論の利点を理解したいと思います。残差の仮定のOLS正規性に違反するデータをモデル化する最も効率的な方法は何ですか？または、少なくとも健全な回帰分析方法論を開発するための最初のステップは何ですか？

43 regression least-squares residuals assumptions normality-assumption

2

最尤法と最小二乗法

最尤推定（MLE）と最小二乗推定（LSE）の主な違いは何ですか？なぜ線形回帰で値を予測するためにMLEを使用できないのですか？yyy このトピックに関するヘルプは大歓迎です。

42 regression estimation maximum-likelihood least-squares

6

線形回帰ではどのアルゴリズムが使用されますか？

私は通常「通常の最小二乗」について聞きます。それは線形回帰に使用される最も広く使用されているアルゴリズムですか？別のものを使用する理由はありますか？

42 regression least-squares algorithms computational-statistics numerics

4

なぜ他の代わりにシグモイド関数なのか？

事実上の標準シグモイド関数が（非深層）ニューラルネットワークとロジスティック回帰で非常に人気があるのはなぜですか？11+e−x11+e−x\frac{1}{1+e^{-x}} 他の多くの派生関数を使用して、計算時間を短縮するか、減衰を遅くします（勾配の消失が少なくなります）。シグモイド関数に関するいくつかの例がウィキペディアにあります。減衰が遅く計算が速い私のお気に入りの1つはです。x1+|x|x1+|x|\frac{x}{1+|x|} 編集この質問は、シグモイドの「なぜ」にのみ興味があるので、賛否両論のニューラルネットワークの活性化関数の包括的なリストとは異なります。

40 logistic neural-networks least-squares

5

リッジ回帰ソリューションの導出方法

リッジ回帰の解の導出にいくつかの問題があります。正則化用語のない回帰ソリューションを知っています： β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

40 regression least-squares regularization ridge-regression

5

二乗誤差の最小化は絶対誤差の最小化と同等ですか？なぜ二乗誤差が後者よりも一般的ですか？

一連のデータポイントに合うように線形回帰を実行すると、従来のアプローチは平方誤差を最小化します。二乗誤差を最小化すると絶対誤差を最小化するのと同じ結果が得られるという質問に長い間戸惑っていました。そうでない場合、なぜ二乗誤差を最小化するのが良いのでしょうか？「目的関数は微分可能」以外の理由はありますか？（X 1、Y 1）、（X 2、Y 2）、。。。、（x n、y n）y= a x + by=aバツ+by=ax+b（x1、y1）、（x2、y2）、。。。、（xn、yn）（バツ1、y1）、（バツ2、y2）、。。。、（バツn、yn）(x_1,y_1),(x_2,y_2),...,(x_n,y_n) 二乗誤差もモデルのパフォーマンスを評価するために広く使用されていますが、絶対誤差はあまり一般的ではありません。絶対誤差よりも二乗誤差が一般的に使用されるのはなぜですか？導関数を取る必要がない場合、絶対誤差の計算は平方誤差の計算と同じくらい簡単です。その有病率を説明できるユニークな利点はありますか？ありがとうございました。

39 least-squares error

8

変更スコアに対する独立変数の効果をテストするときに、ベースライン測定値を制御変数として含めることは有効ですか？

OLS回帰を実行しようとしています。 DV：1年にわたる重量の変化（初期重量-終了重量） IV：運動するかどうか。しかし、体重の多い人は、thinnerせた人よりも運動単位あたりの体重が減るのが妥当と思われます。したがって、制御変数を含めたかったのです。 CV：初期開始重量。ただし、従属変数ANDを制御変数として計算するために両方で初期重みが使用されるようになりました。これでいいですか？これはOLSの前提に違反しますか？

38 regression repeated-measures least-squares change-scores

1

OLSモデルの係数が（nk）自由度のt分布に従うことの証明

バックグラウンド回帰モデルに係数がある通常の最小二乗モデルがあるとします。 kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} ここで、は係数のベクトル、は次で定義される設計行列です。ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X = ⎛⎝⎜⎜⎜⎜⎜⎜11⋮1バツ11バツ21バツn 1バツ12…⋱………バツ1（k − 1 ）⋮⋮バツn（k − 1 ）⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots …

29 regression linear-model least-squares t-distribution

3

PCAを介して直交回帰（合計最小二乗）を実行する方法は？

私は常にlm()R での線形回帰を実行するために使用します。この関数は、ような係数返しますyyyxxxββ\betay=βx.y=βx.y = \beta x. 今日、私は総最小二乗について学び、そのprincomp()機能（主成分分析、PCA）を使用してそれを実行できることを学びました。それは私にとって良いはずです（より正確に）。を使用していくつかのテストを行いましたprincomp()： r <- princomp( ~ x + y) 私の問題は、結果をどのように解釈するかです。回帰係数を取得するにはどうすればよいですか？「係数」とは、値を掛けて近い数を与えるために使用しなければならない数を意味します。ββ\betaxxxyyy

29 r pca least-squares deming-regression total-least-squares

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

2

RSSがカイ二乗倍npで配信されるのはなぜですか？

OLSモデルでは、RSS（残差平方和）が（はモデル内のパラメーター数、は観測数）に分布している理由を理解したいと思います。のP Nχ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn このような基本的な質問をしたことをおaびしますが、オンライン（またはアプリケーション指向の教科書）で答えを見つけることができないようです。

28 regression distributions least-squares

タグ付けされた質問 「least-squares」

タグ付けされた質問「least-squares」