次の抜粋は、一貫して成功しているヘッジファンドマネージャーのJaffray WoodriffとのインタビューであるSchwagerのHedge Fund Market Wizzards(2012年5月)からのものです。
「データマイニングで発生する最悪のエラーにはどのようなものがありますか?」:
多くの人は、トレーニングにサンプル内データを使用し、テストにサンプル外データを使用するため、大丈夫だと考えています。次に、サンプル内のデータで実行した方法に基づいてモデルを並べ替え、サンプル外のデータでテストするのに最適なモデルを選択します。人間の傾向は、サンプル外のデータで引き続き成功するモデルを採用し、それらのモデルを取引用に選択することです。このタイプのプロセスは、サンプル外のデータをトレーニングデータの一部に単純に変換します。これは、サンプル外の期間で最高の結果が得られたモデルを選択するためです。これは、人々が犯す最も一般的なエラーの1つであり、通常適用されるデータマイニングがひどい結果をもたらす理由の1つです。
インタビュアーは、「あなたは代わりに何をすべきですか?」
平均して、サンプル外のすべてのモデルが引き続き良好に機能するパターンを探すことができます。サンプル外モデルの平均がサンプル内スコアのかなりの割合である場合、あなたはうまくやっていることがわかります。一般的に、サンプル外の結果がサンプル内の50%を超える場合、実際にどこかに到達しています。SASとIBMが優れた予測モデリングソフトウェアを構築していた場合、QIMのビジネスモデルは機能しませんでした。
私の質問
これは理にかなっていますか?彼はどういう意味ですか?あなたは手がかりを持っていますか?あるいは提案された方法といくつかの参考文献の名前さえありますか?または、この男は誰も理解していない聖杯を見つけましたか?彼はこのインタビューで、彼の方法は潜在的に科学に革命をもたらす可能性があるとも述べています...