一歩下がって、1分間の予測の側面を忘れておくと便利です。分布だけを考えて、単一の数値を使用してそれを要約したいと仮定します。F
統計クラスの非常に早い段階で、の期待値を1つの数値の要約として使用すると、予想される2乗誤差が最小になることがわかります。F
問題は、Fの中央値を使用すると、予想される絶対誤差が最小になるのはなぜですか?F
このために、私はよく「最小偏差位置として中央値を視覚化する」ことをお勧めします。(2001年、アメリカ統計学者)。彼らは論文と一緒に小さなアプレットを設定しましたが、残念ながらおそらく最近のブラウザでは動作しませんが、論文のロジックをたどることができます。
エレベーターの列の前に立っているとします。それらは等間隔に配置されるか、エレベータのドア間の距離が他のドアよりも大きくなる場合があります(たとえば、エレベータによっては故障する場合があります)。エレベーターの1つが到着したときに、どのエレベーターの前に、予想される最小限の歩行を維持する必要がありますか?この予想される歩行は予想される絶対誤差の役割を果たすことに注意してください!
3台のエレベーターA、B、Cがあるとします。
- Aの前で待つ場合、AからB(Bが到着した場合)、またはAからC(Cが到着した場合)-Bを通過する必要があります。
- Bの前で待つ場合、BからA(Aが到着した場合)またはBからC(Cが到着した場合)まで歩く必要があります。
- Cの前で待つ場合、CからA(Aが到着した場合)に歩いて-Bを通過するか、CからB(Bが到着した場合)に歩く必要があります。
最初と最後の待機位置から、最初にAB、最後にBCの距離があるので、到着するエレベーターの複数のケースを歩く必要があることに注意してください。したがって、最善の策は、3つのエレベーターの配置に関係なく、中央のエレベーターの前に立つことです。
これが、Hanleyらの図1です。
これは、3つ以上のエレベーターに簡単に一般化できます。または、最初に到着する可能性の異なるエレベーターへ。または実際に数え切れないほど多くのエレベーターに。したがって、このロジックをすべての離散分布に適用してから、限界に渡して連続分布に到達できます。
F^
F^λ ≤ LN2
したがって、上記の2つの場合のように、予測分布が非対称であると疑われる場合(または非対称である必要がある場合)、偏りのない予測を取得する場合は、rmseを使用します。分布が対称であると想定できる場合(通常、大量のシリーズの場合)、中央値と平均値が一致し、maeを使用すると、公平な予測に導くことができ、MAEが理解しやすくなります。
同様に、対称分布の場合でも、mapeを最小化すると、予測に偏りが生じる可能性があります。この私の以前の回答には、非対称に分散した厳密に正の(対数正規分布)シリーズのシミュレーション例が含まれており、MSE、MAEまたはMAPEを最小化するかどうかに応じて、3つの異なるポイント予測を使用して有意にポイント予測できます。