私には同じように見えますが、よくわかりません。
更新:振り返ってみると、これはあまり良い質問ではありませんでした。OLSはラインをデータに適合させることを指し、RSSはOLSが使用するコスト関数です。二乗誤差の残差の合計が最小になるパラメーターを見つけます。OLSでは通常と呼ばれますが、これは線形近似を行っていることを意味します。
私には同じように見えますが、よくわかりません。
更新:振り返ってみると、これはあまり良い質問ではありませんでした。OLSはラインをデータに適合させることを指し、RSSはOLSが使用するコスト関数です。二乗誤差の残差の合計が最小になるパラメーターを見つけます。OLSでは通常と呼ばれますが、これは線形近似を行っていることを意味します。
回答:
ここにあるから定義ウィキペディア:
統計では、残差二乗和(RSS)は残差二乗和です。これは、データと推定モデルの間の不一致の尺度です。通常最小二乗(OLS)は、任意のデータセットで観測された応答とデータの線形近似によって予測された応答との差を最小限に抑えることを目的として、線形回帰モデルの未知のパラメーターを推定する方法です。
したがって、RSSはモデルがデータをどの程度適切に近似しているかを示す尺度であり、OLSは適切なモデルを構築する方法です。
通常の最小二乗(OLS)
通常の最小二乗(OLS)は統計の主力です。線形性を使用して、複雑な結果を取り、動作(傾向など)を説明する方法を提供します。OLSの最も単純なアプリケーションは、ラインのフィッティングです。
残差
残差は、推定された係数からの観測可能な誤差です。ある意味では、残差は誤差の推定値です。
R
コードを使って説明しましょう:
最初に、UsingR
ライブラリ内のダイヤモンドデータセットの通常の最小二乗線を適合させます。
library(UsingR)
data("diamond")
y <- diamond$price
x <- diamond$carat
n <- length(y)
olsline <- lm(y ~ x)
plot(x, y,
main ="Odinary Least square line",
xlab = "Mass (carats)",
ylab = "Price (SIN $)",
bg = "lightblue",
col = "black", cex = 2, pch = 21,frame = FALSE)
abline(olsline, lwd = 2)
さて、残差、つまり残差の二乗和を計算してみましょう。R
残差をとして簡単に計算できます。resid(olsline)
視覚化のために、手動で計算してみましょう。
# The residuals from R method
e <- resid(olsline)
## Obtain the residuals manually, get the predicated Ys first
yhat <- predict(olsline)
# The residuals are y -yhat, Let's check by comparing this with R's build in resid function
ce <- y - yhat
max(abs(e-ce))
## Let's do it again hard coding the calculation of Yhat
max(abs(e- (y - coef(olsline)[1] - coef(olsline)[2] * x)))
# Residuals arethe signed length of the red lines
plot(diamond$carat, diamond$price,
main ="Residuals sum of (actual Y - predicted Y)^2",
xlab = "Mass (carats)",
ylab = "Price (SIN $)",
bg = "lightblue",
col = "black", cex = 2, pch = 21,frame = FALSE)
abline(olsline, lwd = 2)
for (i in 1 : n)
lines(c(x[i], x[i]), c(y[i], yhat[i]), col = "red" , lwd = 2)
これらの視覚化がRSSとOLSの間の疑問を解消することを願っています
ある意味で、OLSはトレーニングデータに基づいて回帰直線を推定するモデルです。一方、RSSは、テストデータとトレーニングデータの両方のモデルの精度を知るためのパラメーターです。