私の2¢を追加してみましょう。ヘッジファンド用の適切でクリーンなデータを取得するのが私の仕事です。非常に多くのデータフィードと履歴データプロバイダーを見てきました。これは主に米国の株価データに関するものです。
まず、Yahooからのデータのダウンロードに煩わされないお金がある場合は、CSIデータから1日の終わりのデータを直接取得します。これが、YahooがEODデータとAFAIKを取得する場所です。APIがあり、データを任意の形式に抽出できます。データの年間サブスクリプションは数百ドルです。
無料サービスからデータをダウンロードすることの主な問題は、まだ存在している株のみを取得することです。これは生存バイアスと呼ばれ、多くの株を見ると間違った結果を与える可能性があります。上場から除外されたものではなく、はるかに。
IQFeedで調べる日中のデータをいじるには、履歴データを抽出するためのいくつかのAPIを提供しますが、これらは主にリアルタイムフィードの装備です。しかし、ここにはかなりの数のオプションがあり、一部のブローカーはAPIを介して履歴データのダウンロードを提供することさえあるので、毒を選ぶだけです。
しかし、通常、このデータはすべてそれほどクリーンではありません。実際にテストを開始すると、特定の株が欠落しているか、2つの異なるシンボルとして表示されているか、株分割が適切に考慮されていないことがわかります。配当データも必要なので、円で実行し始め、100の異なるデータソースからのデータを一緒にパッチします。したがって、「割引」データフィードから始めれば十分ですが、より包括的なバックテストを実行するとすぐに、何をすべきかに応じて問題が発生する可能性があります。たとえば、S&P 500の株価を見てみると、それほど問題にはならず、「安価な」日中フィードでも問題ありません。
あなたが見つけられないのは無料の日中のデータです。私はあなたがいくつかの例を見つけるかもしれないということを意味します、私はどこかにMSFTティックデータが5年ぐらい浮かんでいると確信していますが、それはあなたをそれほど遠くに連れて行きません。
次に、本物(レベルIIオーダーブック、すべての取引所で発生したすべてのティック)が必要な場合は、「手頃な価格」でありながら優れたオプションがNanexです。彼らは実際にテラバイトのデータを備えたドライブを出荷します。私の記憶が正しければ、年間約3,000〜4,000ドルのデータです。しかし、私を信じてください。ひとたび良い日中データを取得することがどれほど難しいかを理解すれば、これは決して大金だとは思わないでしょう。
落胆させるのではなく、適切なデータを取得することは困難です。実際、多くのヘッジファンドや銀行は、信頼できるデータを取得するために毎月数十万ドルを費やしています。繰り返しますが、どこから始めてそこから移動することもできますが、状況を少し確認するとよいでしょう。
編集:上記の答えは私自身の経験からです。利用可能なデータフィードに関するCaltechからのこの記事は、より多くの洞察を提供し、特にQuantQuoteを推奨します。