MAEを最小化すると、平均ではなく中央値が予測されるのはなぜですか?


19

予測:原則と実践は、ロブ・J HyndmanとジョージAthanasopoulos教科書、特に精度測定上のセクション

MAEを最小化する予測方法は中央値の予測につながり、RMSEを最小化すると平均の予測につながります

MAEを最小化すると平均ではなく中央値が予測される理由を直感的に説明できますか?そして、これは実際には何を意味しますか?

お客様に、「平均予測をより正確にする、または非常に不正確な予測を避けるために、あなたにとってより重要なことは何ですか?」と尋ねました。彼は、平均予報をより正確にするために、より高い優先度を持っていると言いました。したがって、この場合、MAEまたはRMSEを使用する必要がありますか?この引用を読む前に、私はMAEがそのような状態に良くなると信じていました。そして今、私は疑います。

回答:


17

一歩下がって、1分間の予測の側面を忘れておくと便利です。分布だけを考えて、単一の数値を使用してそれを要約したいと仮定します。F

統計クラスの非常に早い段階で、の期待値を1つの数値の要約として使用すると、予想される2乗誤差が最小になることがわかります。F

問題はF中央値を使用すると、予想される絶対誤差が最小になるのはなぜですか?F

このために、私はよく「最小偏差位置として中央値を視覚化する」ことをお勧めします。(2001年、アメリカ統計学者。彼らは論文と一緒に小さなアプレットを設定しましたが、残念ながらおそらく最近のブラウザでは動作しませんが、論文のロジックをたどることができます。

エレベーターの列の前に立っているとします。それらは等間隔に配置されるか、エレベータのドア間の距離が他のドアよりも大きくなる場合があります(たとえば、エレベータによっては故障する場合があります)。エレベーターの1つ到着したときに、どのエレベーターの前に、予想される最小限の歩行を維持する必要がありますか?この予想される歩行は予想される絶対誤差の役割を果たすことに注意してください!

3台のエレベーターA、B、Cがあるとします。

  • Aの前で待つ場合、AからB(Bが到着した場合)、またはAからC(Cが到着した場合)-Bを通過する必要があります
  • Bの前で待つ場合、BからA(Aが到着した場合)またはBからC(Cが到着した場合)まで歩く必要があります。
  • Cの前で待つ場合、CからA(Aが到着した場合)に歩いて-Bを通過するか、CからB(Bが到着した場合)に歩く必要があります。

最初と最後の待機位置から、最初にAB、最後にBCの距離があるので、到着するエレベーターの複数のケースを歩く必要があることに注意してください。したがって、最善の策は、3つのエレベーターの配置に関係なく、中央のエレベーターの前に立つことです。

これが、Hanleyらの図1です。

Hanley et al。、図1

これは、3つ以上のエレベーターに簡単に一般化できます。または、最初に到着する可能性の異なるエレベーターへ。または実際に数え切れないほど多くのエレベーターに。したがって、このロジックをすべての離散分布に適用してから、限界に渡して連続分布に到達できます。

F^

F^λln2

したがって、上記の2つの場合のように、予測分布が非対称であると疑われる場合(または非対称である必要がある場合)、偏りのない予測を取得する場合は、使用し。分布が対称であると想定できる場合(通常、大量のシリーズの場合)、中央値と平均値が一致し、を使用すると、公平な予測に導くことができ、MAEが理解しやすくなります。

同様に、対称分布の場合でも、を最小化すると、予測に偏りが可能性があります。この私の以前の回答には、非対称に分散した厳密に正の(対数正規分布)シリーズのシミュレーション例が含まれており、MSE、MAEまたはMAPEを最小化するかどうかに応じて、3つの異なるポイント予測を使用して有意にポイント予測できます。


9

ステファンの答えは、絶対平均誤差を最小化することが中央値を与える理由を直感的に説明します。次に、MSE、MAE、MAPEのどれを使用するかを答えます。

MAEは堅牢であり、外れ値の影響を受けにくいことを意味します。あるべきシリーズよりも100万倍大きいエラーのあるシリーズを想像してください。MSEでは、予測を100万/ N回プルします(Nはポイント数です)が、MAEは1ユニットのみプルされます。

残念ながら、MAEはユニークはないため、ある種の統合失調症の行動を示す場合があります。

したがって、最初にMSEを作成し、次にMSEパラメーターを使用してMAE回帰を開始することをお勧めします。

いずれにせよ、両方の予測を比較してください。それらが非常に異なる場合は、データに臭いがあります。

ここに画像の説明を入力してくださいここに画像の説明を入力してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.