予測可能性
これが予測可能性の問題であることは正しいです。IIFの実務者向けのジャーナルForesightには、予測可能性に関する記事がいくつかあります。(完全開示:私はアソシエイトエディターです。)
問題は、「単純な」ケースでは予測可能性を評価するのがすでに難しいことです。
いくつかの例
次のような時系列があるが、ドイツ語を話さないと仮定します。
4月の大きなピークをどのようにモデル化し、この情報をどのように予測に含めますか?
この時系列が、西暦のイースターの直前にピークを迎えるスイスのスーパーマーケットチェーンでの卵の販売であることを知らない限り、チャンスはありません。さらに、イースターはカレンダーを最大6週間移動するため、イースターの特定の日付を含まない予測(たとえば、これは来年の特定の週に繰り返される季節的なピークであると仮定することで)おそらく非常にオフになります。
同様に、下に青い線があり、2010-02-27の「通常の」パターンとはまったく異なる2010-02-28に起こったことをモデル化したいと仮定します。
繰り返しますが、カナダ人でいっぱいの都市全体がテレビでオリンピックのアイスホッケーの決勝戦を見たときに何が起こるか知らずに、あなたはここで何が起こったのかを理解する機会がまったくなく、あなたはこのようなものがいつ再発するかを予測することはできません。
最後に、これを見てください:
これは、現金およびキャリーストアでの毎日の販売の時系列です。(右側には、シンプルなテーブルがあります。282日間の売り上げはゼロで、42日間の売り上げは1 ...で、1日間の売り上げは500でした。)どのアイテムかわかりません。
今日まで、私は500の売り上げでその日に何が起こったのか分かりません。私の推測では、これはどんな商品でも大量に予約注文して集めた顧客です。さて、これを知らなくても、この特定の日の予測は遠いでしょう。逆に、これはイースターの直前に発生したと仮定し、これがイースター効果(おそらくこれらは卵ですか?)である可能性があると信じている愚かなスマートアルゴリズムがあり、幸いにも次のイースターの500ユニットを予測します。ああ、それはうまくいかないかもしれない。
概要
いずれの場合も、データに影響を与える可能性のある要因を十分に深く理解して初めて、予測可能性を十分に理解できることがわかります。問題は、これらの要因を知らない限り、それらを知らないかもしれないことを知らないということです。あたりとして、ドナルド・ラムズフェルド:
[T]既知の既知のものです。知っていることはわかっています。また、既知の未知のものがあることも知っています。つまり、わからないこともあるとわかっているということです。しかし、未知の未知の要素もあります。未知の未知の要素です。
イースターやカナダ人のホッケーに対する偏見が私たちにとって未知の未知のものであるなら、私たちは立ち往生しています-そして、私たちは私たちが尋ねる必要のある質問を知らないので、進む道すらありません。
これらに対処する唯一の方法は、ドメインの知識を収集することです。
結論
これから3つの結論を導き出します。
- あなたは常にあなたのモデリングと予測してドメイン知識を含める必要があります。
- ドメインの知識があっても、ユーザーが受け入れられる予測や予測に十分な情報を取得できる保証はありません。上記の外れ値を参照してください。
- 「結果が悲惨」である場合、達成できる以上のものを望んでいる可能性があります。公正なコイントスを予測している場合、50%を超える精度を得る方法はありません。外部の予測精度ベンチマークも信頼しないでください。
ボトムライン
モデルを構築することをお勧めします-停止するタイミングに注意してください:
- まだ自分でドメイン名を持っていない場合は、ドメインの知識がある人に相談してください。
- 手順1に基づいて、予想されるデータの主な要因(相互作用の可能性を含む)を特定します。
- ステップ2に従って強度の降順でドライバーを含め、モデルを繰り返し構築します。相互検証またはホールドアウトサンプルを使用してモデルを評価します。
- 予測精度がこれ以上向上しない場合は、手順1に戻って(たとえば、説明できない露骨な予測ミスを特定し、ドメインの専門家と議論することにより)、最後まで到達したことを受け入れます。モデルの機能。事前に分析をタイムボックス化すると役立ちます。
元のモデルがプラトーになった場合、異なるクラスのモデルを試すことを推奨していないことに注意してください。通常、合理的なモデルから始めた場合、より洗練されたものを使用しても大きな利点は得られず、単に「テストセットに過剰適合」する可能性があります。私はこれを頻繁に見ましたが、他の人も同意します。