意図的な過剰適合


8

意図的にモデルをオーバーフィットすることは理にかなっていますか?

データがトレーニングデータに対してそれほど変わらないことがわかっているユースケースがあるとします。

私はここで交通予測について考えています。交通状況は一定のパターンのセットに従います

  • 朝の通勤
  • 夜の活動
  • 等々。

これらのパターンは、自動車ユーザーの急増や道路インフラの大きな変化がない限り、あまり変わりません。この場合、将来のパターンとデータが非常に類似すると想定して、モデルが現在のデータで学習したパターンにできるだけ偏るようにしたいと思います。


データが変更されないことが保証されている場合は、モデルをオーバーフィットしてパフォーマンスを向上させることができますが、これは悪い考えのように思えます。
user2974951 2018

1
そうです。しかし、その一方で、データがほとんど変化しないことがわかっていれば、それは悪い考えではないと思います。ここに私の考えを書いているので、誰かが私が間違っていることを証明できます。
ブランドン、

5
モデル(つまり、将来のデータ)のサンプル外の予測パフォーマンスが現在のデータのパフォーマンスよりも悪くない場合、技術的にはあまり適合していません。現在のデータにノイズを当てはめているときは過剰適合であり、それは常に新しいデータの予測を悪化させるはずです。交差検定を使用して、モデルを適切な複雑さのレベルに設定できるはずです。
matteo 2018

2
研究では、被験者はいくつかのデータをオーバーフィットするように求められ、それから宝くじに勝ちました。この研究は、データの過剰適合は常に良いことであると結論付けました。
Nat

回答:


4

一般に、意図的にデータを過剰に適合させることは意味がありません。問題は、データに含まれていない部分にもパターンが表示されることを確認するのが難しいことです。データにパターンがあることを確認する必要があります。そうすることの1つの可能性は、定常性の概念です。


あなたが言うことは私に定常性とエルゴード性を思い出させます。コンテキスト側/ビジネス側から、時系列が特定のパターンに従うと想定します。これらのパターンは定常性またはエルゴード性と呼ばれます。

定常性の定義:

定常過程は、時間的にシフトしても無条件の同時確率分布が変化しない確率過程です。したがって、平均や分散などのパラメーターも時間の経過とともに変化しません。

エルゴード性の定義:

エルゴディックプロセスは、十分な時間が与えられた場合に、特定の空間内のすべてのポイントを含み、またはそれに影響を与え、合理的に大きなポイントの選択によって統計的に表すことができるプロパティを持つシステムまたはプロセスに関連するか、それを示すプロセスです。


次に、それが実際にこれらの特定のパターンに従っていることを確認します。これは、たとえば、ユニットルートテスト(Dickey-Fullerなど)または定常性テスト(KPSSなど)で実行できます。

定義ユニットルートテスト:

H0:ユニットルートがあります。

H1:ユニットルートがありません。これは、ほとんどの場合、定常性を意味します。

定義定常性テスト:

H0:定常性があります。

H1:定常性はありません。

参考文献:

定常テストと単体ルートテストの違いは何ですか?


時系列が実際にこれらのパターンに従っている場合、予測と予測は「統計的な観点から見るとより簡単」になります。たとえば、ARIMAやTBATSなどの予測に計量経済モデルを適用できます。横断的なデータの定常性があり、単位根が一般的な概念ではない場合、私の答えは単変量および多変量時系列に関連しています。


8

いいえ、データをオーバーフィットしても意味がありません。

過剰適合という用語は、実際にはモデル間の比較を意味します。指定されたトレーニングデータではmodel_aのパフォーマンスは向上しますが、サンプル外がmodel_bよりも悪い場合、model_aは過剰適合です。または言い換えると、「より良い代替案が存在します」。

トラフィックステータスが「トレーニングデータに関してまったく変化しない」場合は、トレーニングデータを記憶するだけで最良の結果を得ることができます(ここでも、「過剰適合」ではありません)。

しかし、「データはトレーニングデータに関してそれほど変化しない」とは、単に、基礎となるパターンの合理的な表現を持つことと同じです。これは、機械学習が最適に機能する場所ですFerdiが説明したように、定常環境)。


オーケー。ですから、意図的にバイアスを増やすと言った方がいいでしょう。これは、バイアスと分散のトレードオフについて読んでいて、トラフィックのユースケースに対してバイアスを高くすることが理にかなっているためです。
ブランドン

アルゴリズム+チューニングにより、最良の結果が得られます(トレードオフを最適化します)。
ラクサンネイサン

+1が、過剰適合から「より良い代替案が存在する」とは考えていません。
kbrose 2018

4

あなたのデータを過剰に適合させることには意味があると思いますが、それは研究目的のためだけです。(生産中にオーバーフィットモデルを使用しないでください!)

データが複雑でタスクが重要な場合、モデルをオーバーフィットすることは重要なステップです。

モデルをオーバーフィットできる場合、それはデータがモデルによって記述されることが可能であることを意味します。

オーバーフィットすることさえできない場合-それはあなたに調査の手がかりを与えることができます:

  • データをモデル化する準備ができていないため、データの準備/機能エンジニアリングをさらに行う必要がある
  • モデルが単純すぎて、すべてのデータ依存関係をキャプチャできない
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.