データマイニングの新しい革新的な方法は?


21

次の抜粋は、一貫して成功しているヘッジファンドマネージャーのJaffray WoodriffとのインタビューであるSchwagerのHedge Fund Market Wizzards(2012年5月)からのものです。

「データマイニングで発生する最悪のエラーにはどのようなものがありますか?」:

多くの人は、トレーニングにサンプル内データを使用し、テストにサンプル外データを使用するため、大丈夫だと考えています。次に、サンプル内のデータで実行した方法に基づいてモデルを並べ替え、サンプル外のデータでテストするのに最適なモデルを選択します。人間の傾向は、サンプル外のデータで引き続き成功するモデルを採用し、それらのモデルを取引用に選択することです。このタイプのプロセスは、サンプル外のデータをトレーニングデータの一部に単純に変換します。これは、サンプル外の期間で最高の結果が得られたモデルを選択するためです。これは、人々が犯す最も一般的なエラーの1つであり、通常適用されるデータマイニングがひどい結果をもたらす理由の1つです。

インタビュアーは、「あなたは代わりに何をすべきですか?」

平均して、サンプル外のすべてのモデルが引き続き良好に機能するパターンを探すことができます。サンプル外モデルの平均がサンプル内スコアのかなりの割合である場合、あなたはうまくやっていることがわかります。一般的に、サンプル外の結果がサンプル内の50%を超える場合、実際にどこかに到達しています。SASとIBMが優れた予測モデリングソフトウェアを構築していた場合、QIMのビジネスモデルは機能しませんでした。


私の質問
これは理にかなっていますか?彼はどういう意味ですか?あなたは手がかりを持っていますか?あるいは提案された方法といくつかの参考文献の名前さえありますか?または、この男は誰も理解していない聖杯を見つけましたか?彼はこのインタビューで、彼の方法は潜在的に科学に革命をもたらす可能性があるとも述べています...


4
彼は、単一の分割サンプル(トレーニングと検証)からのエラーについて単に議論し、ネストされたクロス検証プロセスを提唱しているのではありませんか?
B_Miner

12
「科学」に革命をもたらすような深い洞察を主張するには用心します。
枢機

2
ヘッジファンドマネジャーは「より良いモデリングアプローチ」を主張し、競争の話を少ししますか?そこに新しいものはありません。
zbicyclist

2
うわー、この質問はどのように多くの賛成票を得ているのですか?サンプル外予測は、入門的な機械学習コースの初日に議論される問題です。サンプル外の予測を正しく処理しない人もいますが、予測のタスクについて少しでも手掛かりを持っている人は誰もいません。
user4733

もちろん、取引は時間の問題であり、彼が言っていることは、クロス検証(もちろん既知のデータを使用する)は時間とともに構造が変化する問題を解決できないようです!しかし、彼が実際に行っていることは推測できません。
kjetil bハルヴォルセン

回答:


6

これは理にかなっていますか?部分的に。

彼はどういう意味ですか?彼に聞いてください。

あなたは手がかりを持っていますか?あるいは提案された方法といくつかの参考文献の名前さえありますか?

相互検証。http://en.wikipedia.org/wiki/Cross-validation_(statistics)

または、この男は誰も理解していない聖杯を見つけましたか?いや

彼はこのインタビューで、彼の方法は科学に革命をもたらす可能性があるとさえ述べています。


2
まあ、少なくとも彼は本当の問題を指摘しています

8

他の「保証」応答があるかどうかはわかりませんが、ここにあります。

相互検証は決して「新しい」ものではありません。さらに、分析ソリューションが見つかった場合、相互検証は使用されません。たとえば、ベータの推定にクロス検証を使用せず、OLSまたはIRLSまたはその他の「最適な」ソリューションを使用します。

引用文の明白に明らかなギャップとして私が見るものは、それらが意味をなすかどうか見るために「最良の」モデルを実際にチェックするという概念への言及ではありません。一般に、優れたモデルは直感的なレベルで意味をなします。CVはすべての予測問題に対する特効薬であるという主張のようです。モデル構造のより高いレベルでの設定をオフ何の話もありません-私たちが使うのですSVM回帰木ブーストバギングOLSをGLMSGLMNS。変数を正規化しますか?もしそうならどのように?変数をグループ化しますか?スパース性に対する堅牢性が必要ですか?外れ値はありますか?データ全体をモデル化するのか、それとも断片化するのか?CVに基づいて決定するにはあまりにも多くのアプローチがあります。

そして、もう1つの重要な側面は、どのコンピューターシステムが利用可能かということです。データはどのように保存および処理されますか?欠落があります-これをどのように説明しますか?

そしてここに大きなものがあります:良い予測をするのに十分なデータがありますか?データセットにない既知の変数はありますか?データは予測しようとしているものを代表していますか?

KK2

npnpnp


9
いいね。あなたはかかわらず、臨時のキャップを使用したい場合...読むためにはるかに簡単にしてきただろう
MånsT

4

データマイニングの一般的なエラーについての彼の説明は賢明なようです。彼がしていることの彼の説明は意味をなさない。「一般的に言えば、サンプル外の結果がサンプル内の50%を超える場合、実際にどこかに到達している」と言うとき、彼は何を意味しますか?そして、口の悪いSASとIBMは、彼をあまり賢く見せません。人々は統計を理解しなくても市場で成功することができ、成功の一部は運です。成功したビジネスマンを予測の第一人者として扱うのは間違っています。


1
引用された声明が何を意味していたのかは明確ではありませんか?モデルの使用方法に応じて、彼が言うことは非常に理にかなっています。たとえば、Netflixチャレンジの主な「テイクアウト」は、解釈の必要性がほとんどない限り、「モデルブレンディング」の力のようです。その場合、検討中のモデルのサンプルパフォーマンスの一部の「平均」が完全に関連する場合があります。
枢機

@cardinal:これらの非常に興味深い考えから答えを形成できますか?素晴らしいでしょう、ありがとう!
vonjd

2
@cardinal多分それはあなたには明らかかもしれませんが、その後、「サンプル外の結果がサンプル内の50%を超える場合、本当にどこかに到達している」という文を説明します。モデル全体でのアンサンブル平均化が効果的であると言っているなら、もちろんそれに同意することができます。ブースティングは、多くのアプリケーションでうまく機能することが実証されています。しかし、Woodriffの発言からそれがどこに来るのかわかりません。
マイケルR.チャーニック

2
ウッドリフ氏が主張していることの詳細は明らかにわかりませんが、抜粋に基づいてこれを解釈することは、「[私のアプリケーションでは]平均的なサンプル外のパフォーマンス[関連があると思う]は、モデルをフィッティングした後のサンプル内のパフォーマンスの少なくとも半分であり、アプリケーションにとって意味があります。」私は数学者/統計学者なので、注意が必要です。私がヘッジファンドマネジャーであり、外部からの認知を求めているなら、私はもっと壮大で絶対的な発言をするかもしれません。
枢機

1
@cardinalパフォーマンスメジャーとしてエラー率を採用し、Woodriffを解釈して、サンプル内エラー率が5%で、サンプル外エラー率が10%である場合、メソッドは良いと言いますか?決定するためにサンプルのパフォーマンスの外を見てみませんか?サンプルのパフォーマンスに対するサンプルのパフォーマンスの比率は、サンプルのエラー率の推定値の信頼性/信頼性の程度を示していると思いますが、分類器のパフォーマンスの評価に含まれていないようです。モデルのブレンディングが彼の発言のどこに入るかはまだわかりません。
マイケルR.チャーニック

4

平均して、サンプル外のすべてのモデルが引き続き良好に機能するパターンを探すことができます。

ここでの単語パターンの私の理解は、彼は異なる市場条件を意味するということです。素朴なアプローチでは、利用可能なすべてのデータを分析し(すべてのデータが優れていることを知っています)、最適な曲線近似モデルをトレーニングし、すべてのデータで実行し、常に取引します。

より成功したヘッジファンドマネージャーとアルゴリズムトレーダーは、市場の知識を使用します。具体的な例として、取引セッションの最初の30分はより不安定になる可能性があります。そのため、彼らはすべてのデータでモデルを試してみますが、最初の30分間だけで、すべてのデータでモデルを試しますが、最初の30分間は除外します。最初の30分で2つのモデルがうまくいくことを発見するかもしれませんが、そのうち8つはお金を失います。一方、最初の30分を除外すると、7人のモデルがお金を稼ぎ、3人がお金を失います。

しかし、これらの2つの勝利モデルを取り、取引の最初の30分でそれらを使用するのではなく、彼らは言う:それはアルゴリズム取引にとって悪い時間であり、私たちはまったく取引するつもりはない。残りの時間は、7つのモデルを使用します。つまり、当時の機械学習では市場の予測が容易であるように思われるため、これらのモデルは今後も信頼できる可能性が高くなります。(時刻が唯一のパターンではありません。他のものは通常、ニュースイベントに関連しています。たとえば、主要な経済指標が発表される直前の市場はより不安定です。)

それが彼の言っていることの私の解釈です。それは完全に間違っているかもしれませんが、私はそれが誰かのための思考のためにまだ有用な食べ物であることを願っています。


2

財務の専門家として、私は声明が曖昧さを提示しないように十分なコンテキストを知っています。金融時系列は、多くの場合、政権交代、構造の破綻、概念のドリフトによって特徴付けられるため、他の業界で実践されているような相互検証は、金融アプリケーションでは成功していません。2番目の部分では、MSEやその他の損失関数ではなく、シャープレシオに対する投資収益率(分子のリターン)のいずれかの財務指標を参照しています。サンプル内戦略が10%のリターンを生み出す場合、実際の取引では、現実的には5%しか生み出さない可能性があります。「革命的な」部分は、引用にではなく、彼独自の分析アプローチに関するものであることは間違いありません。


onlyvixへの質問:財務メトリックをパラメーター最適化のツールとして使用する作業、つまり最尤法を使用するのではなく、そのメトリックを最大化することによりパラメーターを直接最適化する作業をご存知ですか?
kjetil bハルヴォルセン

@kbhそれは私の財務指標ではありません-シャープレシオの最適化は非常に一般的です。頭の一番上にある1つの例ssrn.com/abstract=962461-正確な統計モデルは開発されていませんが、(非常に一般的な用語で)リターンを最大化してリスクを最小化するために作成された取引ルール。
onlyvix.blogspot.com
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.