二乗平均平方根誤差(RMSE)と標準偏差の解釈方法


21

予測値を提供するモデルがあるとしましょう。これらの値のRMSEを計算します。そして、実際の値の標準偏差。

これらの2つの値(分散)を比較するのは意味がありますか?私が思うに、RMSEと標準偏差が類似/同じであれば、私のモデルの誤差/分散は実際に起こっていることと同じです。しかし、これらの値を比較しても意味がない場合、この結論は間違っている可能性があります。私の考えが本当なら、それはモデルがそれが分散を引き起こしているものを帰することができないので、それができる限り良いことを意味しますか?最後の部分はおそらく間違っているか、少なくとも答えるにはさらに情報が必要だと思います。

回答:


22

応答があり、予測値がます。Y 1... Y nはy1,,yny^1,,y^n

(使用した試料分散はなく、簡単化のため)である MSEであるのに対し。したがって、サンプルの分散は、応答が平均を中心にどれだけ変化するかを示し、MSEは、応答が予測を中心にどれだけ変化するかを示します。全体の平均を、これまでに考えた中で最も単純な予測子と考えると、MSEを応答のサンプル分散と比較することで、モデルで説明した変動がどれだけ大きいかがわかります。これはまさに、線形回帰でR ^ 2値が行うことです。n 1 1nn111ni=1n(yiy¯)2 ˉ Y R21ni=1n(yiy^i)2y¯R2

次の図を考慮してくださいのサンプル分散は、水平線周辺の変動です。すべてのデータを軸に投影すると、これがわかります。MSEは、回帰直線までの平均二乗距離、つまり回帰直線の周りの変動(つまり)です。したがって、サンプル分散によって測定される変動性は、水平線までの平均二乗距離であり、これは回帰線までの平均二乗距離よりもかなり大きいことがわかります。 Y Y IyiYy^iここに画像の説明を入力してください


5

予測の平均二乗誤差について話している場合、次のようになります: 推定されるパラメータ 数(p)予測、つまり自由度(DF)の損失。

i(yiy^i)2np,

サンプル分散は次のようになります: ここでは単にの平均の推定量です。

i(yiy¯)2n1,
y¯yi

したがって、後者の式(サンプルの分散)は前者(MSE)の特殊なケースと考えることができます。ここで、あり、平均計算は推定値です。y^i=y¯y¯

または、がどのように予測されるかについてあまり気にしないが、モデルで球場MSEを取得したい場合は、次の式を使用してそれを推定できます。 y^i

i(yiy^i)2n,

計算が最も簡単です。


@Chaconneの答えにコメントする特権はありませんが、彼の最後のステートメントにタイプミスがあるかどうか疑問に思います。 seeは、線までの平均二乗距離よりも実質的に小さい」。しかし、彼の答えの図では、線によるy値の予測はかなり正確です。つまり、MSEは小さく、少なくとも平均値を持つ「予測」よりもはるかに優れています。

3

1ni=1n(yiy¯)2

1ni=1n(yiy^i)2

この議論は、RMSEだけでなく他の誤差の測定にも適用されますが、RMSEは数学式が類似しているため、SDと直接比較するのに特に魅力的です。


これは、違いを単に説明するのではなく、比較がどのように役立つかを説明するため、最良の答えです。
ハンス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.