平均絶対誤差または二乗平均平方根誤差?


59

なぜ平均絶対誤差(MAE)ではなく、ルート平均二乗誤差(RMSE)を使用するのですか?

こんにちは

計算で生成されたエラーを調査してきました。最初は、エラーをルート平均正規化二乗誤差として計算しました。

少し詳しく見てみると、誤差を2乗すると、小さい誤差よりも大きい誤差の方が重みが大きくなり、誤差の推定値が奇数の外れ値に向かって歪んでいます。振り返ってみると、これは非常に明白です。

だから私の質問-どのような場合に二乗平均平方根誤差は平均絶対誤差よりも適切な誤差の尺度になるでしょうか?後者は私にとってより適切であると思われますか、何か不足していますか?

これを説明するために、以下の例を添付しました。

  • 散布図は、良好な相関関係を持つ2つの変数を示しています。

  • 右のグラフの2つのヒストグラムは、正規化されたRMSE(上)とMAE(下)を使用したY(観測値)とY(予測値)の間の誤差です。

ここに画像の説明を入力してください

このデータには重要な異常値はなく、MAEはRMSEよりも低いエラーを示します。MAE以外が望ましい、一方のエラー測定値をもう一方よりも使用するための合理的なものはありますか?


9
RMSEとMAEはエラーの2つの異なる尺度であるため、それらの間の数値比較(MAEがRMSEよりも「低い」と主張することに関係する)は意味がないようです。その線は、何らかの基準に従って適合している必要があります。その基準は、それが何であれ、関連するエラーの測定値でなければなりません。
whuber

ラインは最小二乗法を使用して適合されました-しかし、写真は測定された誤差の違いを示すための単なる例です。私の本当の問題は、オプティマイザーを使用して、4つの関数パラメーターを最小化された誤差(MAEまたはRMSE)の尺度で解決することです。
user1665220

説明をありがとう。しかし、どのエラーに興味がありますか?中にエラーがフィットまたはのエラーパラメータ推定値
whuberの

1
フィットのエラー。関数を使用して予測したいyを与えるいくつかのラボサンプルがあります。観測データと予測データの適合の誤差を最小化することにより、4つの指数の関数を最適化します。
user1665220

RMSEでは、アイテム数のルート(n)を考慮します。これは、MSEのルートをnのルートで割ったものです。MSEのルートは問題ありませんが、nで除算するのではなく、nのルートで除算してRMSEを受け取ります。私はそれが政策だと感じています。現実は(MSEのルート)/ nになります。そのように、MAEの方が優れています。

回答:


58

これは損失関数に依存します。多くの場合、平均値からさらに離れたポイントにより多くの重みを付けることは理にかなっています。つまり、10オフすることは5オフするよりも2倍以上悪いことです。そのような場合、RMSEはエラーのより適切な尺度です。

10だけ離れていることが5だけ離れている場合の2倍だけ悪い場合、MAEがより適切です。

いずれの場合でも、最後から2番目の文で行うようにRMSEとMAEを相互に比較することは意味がありません(「MAEはRMSEより低いエラーを与える」)。MAEは、計算方法によりRMSEより高くなることはありません。同じエラーの測定値と比較して意味があります:方法1のRMSEと方法2のRMSE、または方法1のMAEと方法2のMAEを比較できますが、方法のRMSEよりもMAEが優れているとは言えません1小さいため。


MAEがRMSEを超えることは決してないことを理解しています。私は両方のエラー推定値を使用し、値の違いを見て、外れ値の影響に関する指標を与えてきました。すなわち、彼らが非常に近いとき、彼らがさらに離れているとき、私は何が起こっているのかを調べるために調査します。最終的には、データに最も適したパラメーターを予測したいと考えています。たとえば、9%のエラー音は12%よりも優れています。正しい理由で正しいパラメーターを選択するようにしたかっただけです。あなたのアドバイスのために乾杯
user1665220

RMSE(結果的にMSE)とMAEの主な違いは、エラーの重み付け方法ではありません。必要に応じて重み関数を使用できます。主な違いは、MSEはL2スペースに関連していることです(MAEにはそのようなものはありません)。そのため、たとえば、Eがフィードバック信号である場合、MSEは閉ループ制御に必要なエネルギー量を測定できます(信号の平均二乗を思い出してください。この場合のエラーは、そのエネルギーに比例します)。また、この分野では、数学の多く、したがってMarquardt-Levenbergのようなアルゴリズムが機能します。簡単に言えば、MSEを目的関数として使用します。
eulerleibniz

17

MAEの代わりに(R)MSEを使用する場合の別の状況は次のとおりです。観測の条件付き分布が非対称であり、偏りのないフィットが必要な場合。(R)MSEは条件付き平均によって最小化され、MAEは条件付き中央値によって最小化されます。したがって、MAEを最小化すると、近似は中央値に近くなり、バイアスがかかります。

もちろん、これはすべて損失関数に依存します。

MAEまたは(R)MSEを使用して予測または予測を評価している場合、同じ問題が発生します。たとえば、通常、少量の販売データには非対称の分布があります。MAEを最適化すると、MAEに最適な予測がフラットゼロ予測であることに驚くかもしれません。

これをカバーする少しのプレゼンテーションがあります、そして、これは私がこの効果を説明したM4予測競争の最近の招待されたコメントです。


+1。分布を比較するというアイデアは素晴らしいですが、...あなたが提示するようなメトリックは、次のようなもので悲惨に失敗しませんN = 1e3; set.seed(1); y = rpois(N, lambda=1); yhat = c(y[2:N],0)か?予測密度の「差」は最小限にとどまりますが、実際にyhatは意味がありません。確かに、これは極端なケースです。(私は事前に明らかに何か、そのために謝罪を欠落している可能性があります-私は、紙へのアクセスだけでプレゼンテーションを持っていません。)
usεr11852は回復モニック言う

はい、あなたの順序:@usεr11852 ポイントの予測は役に立たないだろう、特に、フラット予測よりもはるかに悪い(それはMAEとMSEの両方に最適ですので、平均値と中央値の両方で、) 。密度予測は、単なる一連のポイント予測ではありません!これは、将来の各時点の完全な密度予測です。そこで、(1)第一の時点のために、第二のために、第三等のためにPOIを予測するy^=1
S. Kolassa -モニカ元に戻し

説明をありがとうございました。プレゼンテーションの概念をより良くすることができます。(うーん...私は結局あなたの論文を手に入れる必要があります。:))
usεr11852によるとReinstate Monic

@usεr11852:メールでお気軽にお問い合わせください(アドレスはこちらをご覧ください)-メールがスパムフィルターに入らない場合は、喜んでその論文をお送りします。
S. Kolassa -モニカ元に戻し

@usεr11852「like N =」って何だ?
SAK

5

ここに画像の説明を入力してください

RMSEは、ユークリッド距離の損失を記述するより自然な方法です。したがって、3Dでグラフ化すると、上記の緑のように損失は円錐形になります。これは高次元にも適用されますが、視覚化するのは困難です。

MAEは都市ブロック距離と考えることができます。青色のグラフでわかるように、損失を測定する方法としてはそれほど自然ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.