株式市場向けの自動取引システムを開発しています。大きな課題は過剰適合です。過剰適合を測定して回避する方法を説明するリソースをいくつか推奨できますか?
私はトレーニング/検証セットから始めましたが、検証セットは常に汚染されています。
また、市場は常に変化しているため、時系列データも常に変化しています。これをどのように測定し、目に見えないデータで一貫した結果が得られる可能性を判断しますか?
ありがとう。
株式市場向けの自動取引システムを開発しています。大きな課題は過剰適合です。過剰適合を測定して回避する方法を説明するリソースをいくつか推奨できますか?
私はトレーニング/検証セットから始めましたが、検証セットは常に汚染されています。
また、市場は常に変化しているため、時系列データも常に変化しています。これをどのように測定し、目に見えないデータで一貫した結果が得られる可能性を判断しますか?
ありがとう。
回答:
モデル選択に適合しすぎると、読む価値のある論文が
C. AmbroiseとGJ McLachlan、「マイクロアレイ遺伝子発現データに基づく遺伝子抽出における選択バイアス」、PNAS、vol。99いいえ。10 6562-6566、2002年5月。http: //dx.doi.org/10.1073/pnas.102102699
モデル選択で発生する同じ種類の問題の説明については、
GC Cawley、NLC Talbot、「モデル選択のオーバーフィッティングとパフォーマンス評価におけるその後の選択バイアスについて」、Journal of Machine Learning Research、11(Jul):2079-2107、2010。http://jmlr.csail.mit 。 edu / papers / v11 / cawley10a.html
検証セットが汚染されるという問題を解決する方法は、ネストされた交差検証を使用することです。そのため、モデルに関する選択を行うために使用される方法は、パフォーマンス推定に使用される交差検証の各分割で個別に実行されます。基本的に、パフォーマンスの推定では、モデルフィッティング手順全体(モデルのフィッティング、特徴の選択、モデルの選択など)のパフォーマンスを推定する必要があります。
他のアプローチはベイジアンであることです。データの有限サンプルに基づいて基準を最適化すると、過剰適合のリスクが生じるため、最適化ではなく周辺化(積分)すると、従来の過剰適合は不可能になります。ただし、事前変数を指定するという問題があります。