過剰適合を測定して回避するためのベストプラクティスは?


9

株式市場向けの自動取引システムを開発しています。大きな課題は過剰適合です。過剰適合を測定して回避する方法を説明するリソースをいくつか推奨できますか?

私はトレーニング/検証セットから始めましたが、検証セットは常に汚染されています。

また、市場は常に変化しているため、時系列データも常に変化しています。これをどのように測定し、目に見えないデータで一貫した結果が得られる可能性を判断しますか?

ありがとう。


3
Bセブン、あなたの質問は非常に高レベルであまり具体的ではありません。基本的に、機械学習の全分野は、過剰適合を回避する方法の問題に要約できます。相互検証、正則化、適切な事前分布の使用など、いくつかの戦略があります。すべての優れた機械学習の本はそれを助けることができます(たとえば、Duda / Hart / StorkまたはBishopの本)。また、「汚染された検証セット」が何を意味するかも明確ではありません。モデルが時系列データの変化に対応できない場合、それはおそらく単純すぎることを意味します。しかし、より複雑なモデルでは、さらに正則化が必要になります。
fabee

@ Bセブン-検証セットが汚染された場合(モデルをそれに適合させることで想定)、おそらくデータをトレーニング、テスト、および検証セットに分割する方が適切な場合がありますか?
richiemorrisroe

わかりました。したがって、異なるドメインでの作業の過剰適合を回避するための異なるアプローチ。
Bセブン

回答:


5

モデル選択に適合しすぎると、読む価値のある論文が

C. AmbroiseとGJ McLachlan、「マイクロアレイ遺伝子発現データに基づく遺伝子抽出における選択バイアス」、PNAS、vol。99いいえ。10 6562-6566、2002年5月。http: //dx.doi.org/10.1073/pnas.102102699

モデル選択で発生する同じ種類の問題の説明については、

GC Cawley、NLC Talbot、「モデル選択のオーバーフィッティングとパフォーマンス評価におけるその後の選択バイアスについて」、Journal of Machine Learning Research、11(Jul):2079-2107、2010。http://jmlr.csail.mit 。 edu / papers / v11 / cawley10a.html

検証セットが汚染されるという問題を解決する方法は、ネストされた交差検証を使用することです。そのため、モデルに関する選択を行うために使用される方法は、パフォーマンス推定に使用される交差検証の各分割で個別に実行されます。基本的に、パフォーマンスの推定では、モデルフィッティング手順全体(モデルのフィッティング、特徴の選択、モデルの選択など)のパフォーマンスを推定する必要があります。

他のアプローチはベイジアンであることです。データの有限サンプルに基づいて基準を最適化すると、過剰適合のリスクが生じるため、最適化ではなく周辺化(積分)すると、従来の過剰適合は不可能になります。ただし、事前変数を指定するという問題があります。


私は相互検証を実装し、相互検証を1つ残しましたが、過剰適合を測定して軽減する方法を完全には理解していませんでした。私はそれらの書類を見ましたが、それらは私の頭の上にあります。紹介リソースをこれ以上推薦できますか?
Bセブン

2
過適合を測定するには、交差検定を入れ子にする必要があります。外側の交差検証はパフォーマンス評価に使用され、外側の交差検証の各フォールドでは、「内側」の交差検証が機能の選択やモデルの選択などに使用されます。これにより、公平なパフォーマンス推定が得られます。
Dikran Marsupial 2011
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.