平均絶対スケール誤差(MASE)の解釈


22

平均絶対誤差(MASE)は、Koehler&Hyndman(2006)によって提案された予測精度の尺度です。

MASE=MAEMAEnsamplenave

ここで、は実際の予測によって生成される平均絶対誤差です。 一方、は、サンプル内データで計算された単純な予測(統合された時系列の変化なし予測など)によって生成された平均絶対誤差です。M A E i n s a m p l e MAE
I1MAEnsamplenave1

(正確な定義と式については、Koehler&Hyndman(2006)の論文をご覧ください。)

MASE>1は、平均絶対誤差に関して、実際の予測が単純な予測よりも悪化することを意味します。したがって、平均絶対誤差が予測精度の関連する尺度である場合(これは問題に依存します)、は、サンプル外データが予想される場合、単純な予測を優先して実際の予測を破棄することを示唆しますサンプル内のデータと非常によく似ています(サンプル外ではなく、サンプル内で単純な予測がどれだけうまく実行されたかを知っているためです)。MASE>1

質問:

MASE=1.38は、このHyndsightブログ投稿で提案された予測コンテストのベンチマークとして使用されました。明白なベンチマークはべきではありませんか?MASE=1

もちろん、この質問は特定の予測競争に固有のものではありません。これをより一般的な文脈で理解する上で助けてほしい。

私の推測:

私が見る唯一の賢明な説明は、単純な予測は、例えば構造の変化により、サンプルの場合よりもサンプルの場合の方がかなり悪いことが予想されるということです。その場合、は達成するのがすぎるかもしれません。MASE<1

参照:


彼のブログ投稿で、このベンチマークの由来は次のとおりです。「これらのしきい値は、Athanasopoulos et al(2010)で説明されているこれらのデータの分析において最高のパフォーマンスを発揮する方法です。」Athanosopoulosの論文を見ましたか?
S. Kolassa -復活モニカ

私は「あなたの推測」に少し困惑しています。構造の変化は、洗練された予測が実際には部分的に無関係な過去のデータに基づいていることを意味します。しかし、構造的な中断が「変化なし」の予測にどのように影響するかは、中断に依存します。たとえば、ドリフトのあるランダムウォークを見ていて、構造的ブレークがドリフト、定数項がちょうど低くなったことを意味する場合、「変化なし」の予測はブレーク前よりもブレークのほうがパフォーマンスがよくなります。
アレコスパパドプロ14

@AlecosPapadopoulos:あなたは正しいです。ただし、必要に応じてサンプル外データとサンプル内データがまったく異なることを意味しましたが、を期待するための十分な条件ではありません。おそらく私は自分自身を正しく表現しなかったのでしょう。MASE>>1
リチャードハーディ14年

@StephanKolassa:私は論文をざっと読んで、良い説明を見つけられませんでした。おそらくもっと注意深く読むべきでしょう。しかし、私の質問はそれよりも一般的であることを意図しています。私はそのインスタンスに特に興味はありませんが、例として提示しただけです。についての直観を求めています。MASE
リチャードハーディ14年

回答:


15

リンクされたブログ記事、ロブHyndmanは観光予測競争にエントリを呼び出します。本質的には、ブログの記事は、関連に注意を引くのに役立つIJFの記事その非ゲートバージョンのブログ記事ににリンクされています。

参照するベンチマーク(毎月1.38、四半期ごとに1.43、毎年のデータごとに2.28)は、明らかに次のように到達しました。著者(全員が専門の予測者であり、IIFに非常に積極的です-ここにはヘビ油のセールスマンはいません)は、標準の予測アルゴリズムまたは予測ソフトウェアを適用する能力が非常に高く、おそらく単純なARIMA提出には興味がありません。そこで、彼らはいくつかの標準的な方法をデータに適用しました。IJFの論文に受賞論文を招待するために、彼らはMASEによって測定されたこれらの標準的な方法のベストを改善することを求めます。

したがって、あなたの質問は本質的に次のように要約されます:

1のMASEが、サンプル内の素朴なランダムウォーク予測と同じくらい(MADで)サンプル外の予測に対応している場合、ARIMAなどの標準的な予測方法では、月間データの1.38を改善できないのはなぜですか?

ここで、1.38 MASEは、ゲートなしバージョンの表4からのものです。ARIMAからの1〜24か月先の予測の平均ASEです。ForecastPro、ETSなどのその他の標準的な方法は、パフォーマンスがさらに低下します。

そして、ここで答えは難しくなります。データを考慮せずに予測精度を判断することは常に非常に問題です。この特定の場合に考えられる可能性の1つは、トレンドの加速です。を予測しようとするとしますexpt標準的な方法で。これらのどれも加速傾向をキャプチャしません(これは通常良いことです-予測アルゴリズムが加速傾向を頻繁にモデル化する場合、マークを大幅にオーバーシュートする可能性があります)。それらは1を超えるMASEを生成します。あなたが言うように、例えば、レベルシフトやSARSや9/11のような外部の影響などの異なる構造的断絶は、非因果的ベンチマークモデルでは捕捉されませんが、専用の観光予測方法でモデル化できますホールドアウトサンプルの将来の因果関係は、一種の不正行為です)。

そのため、データ自体を十分に調べないと、これについて多くを語ることはできないでしょう。Kaggleで利用できます。あなたの最善の策は、これらの518シリーズを取り、過去24か月間持ちこたえ、ARIMAシリーズに適合し、MASEを計算し、10個または20個のMASE最悪の予測シリーズを掘り出し、大きなポットを手に入れ、これらのシリーズを見て試してみることですARIMAモデルの予測が非常に悪いのは何なのかを理解するためです。

編集:事実の後に明白に見えるが、見るのに5日かかった別のポイント-MASEの分母は1ステップ先のサンプル内ランダムウォーク予測であり、分子は1-24の平均であることに注意してください予測を一歩進めます。予想が地平線の拡大とともに悪化することはそれほど驚くことではないので、これはMASE 1.38のもう1つの理由かもしれません。Seasonal Naive予測もベンチマークに含まれており、さらに高いMASEがあったことに注意してください。


素晴らしい答えです!元の論文の簡潔な要約に感謝します(初心者向けのすべての便利なショートカットとして機能します)。あなたの答えの背後にある主なアイデアは私の推測と矛盾しないようです(むしろそれを拡張します)。サンプル内の素朴な予測エラーが過小評価する特別なサンプルがあります。
リチャードハーディ14年

2

答えではなく、「これらのシリーズを見て」というStephan Kolassaの呼びかけに続くプロット。
Kaggle Tourism1に は年間518の時系列があり、最後の4つの値を予測する必要があります。

ここに画像の説明を入力してください

このプロットは、「単純な」定数予測子からのエラーを示しています。ここでは最後のです。 角の数字81 12 ...は、範囲の%としてのとです。 3行は、最悪の10、中間の10、および518のすべての年間時系列の最高10です。5th
Error4ylengthyError4y14last 4|yy5|
Error4ylengthy

明らかに、非常に短いシリーズ(最上行の12 11 7 7 7 ...)は予測が困難です:当然です。
(Athanasopoulos、Hyndman、Song and Wu、 The Tourism Forecasting Competition (2011、23p)は518の年間シリーズのうち112を使用しましたが、どのシリーズかわかりません。)

2010年以降、時系列の新しいコレクションは他にもありますか?


ありがとう!最後の質問に対する答えがわかりません。
リチャードハーディ

1
@denis:ちょうどあなたの質問を見た-あなたがでデータをお願いする場合がありOpenData.SE
S. Kolassa -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.