「決定係数」と「平均二乗誤差」の違いは何ですか?


32

回帰問題については、「決定係数」(別名Rの2乗)を使用して、モデルの選択(正則化に適切なペナルティ係数を見つけるなど)を実行する人々を見てきました。

ただし、回帰精度の尺度として「平均二乗誤差」または「二乗平均平方根誤差」を使用することも一般的です。

では、これら2つの主な違いは何ですか?それらは「正規化」タスクと「回帰」タスクに交換可能に使用できますか?また、機械学習、データマイニングタスクなど、実際のそれぞれの主な用途は何ですか?

回答:


40

ここで、SSEは二乗誤差(残差または回帰直線からの偏差)の合計であり、SSTは従属者のY平均からの二乗偏差の合計です。R2=1SSESSTSSESSTY

。ここで、nはサンプルサイズで、mはモデル内のパラメーターの数です(存在する場合は切片を含む)。MSE=SSEnmnm

は、サンプルの予測度または適合度の標準化された尺度です。M S Eは、母集団の残差の分散、または非適合の推定値です。調整された R 2(母集団の R 2の推定値)の最も一般的な式に見られるように、2つの測定値は明らかに関連しています。R2MSE R2R2

Radj2=11R2n1nm=1SSE/nmSST/n1=1MSEσy2


2
MSEはエラーの平均であると考えました。これは、MSE = SSE / nを意味しますが、どのような場合にMSE = SSE /(nm)を使用しますか?説明してください。ありがとう
シンコールブランズ14

@SincoleBrans en.wikipedia.org/wiki/Mean_squared_errorのセクション「回帰」を参照してください。
ttnphns 14

私は少し混乱しています。martin-thoma.com/regressionの結果は、モデルがR ^ 2で(他のモデルと比較して)良好であると同時にMSEで不良である可能性があることを示しています。それを説明してもらえますか?
マーティントーマ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.