金融の時系列データ(つまりtickdata)から外れ値とエラー(原因が何であれ)を除去するための堅牢な手法を探しています。
ティックごとの財務時系列データは非常に乱雑です。これには、取引所が閉じられたときに大きな(時間)ギャップが含まれ、取引所が再び開かれたときに大きなジャンプが行われます。取引所が開いているとき、あらゆる種類の要因が間違った(発生しなかった)価格レベルでの取引を引き起こします、および/または市場を代表しません(例えば、誤って入力された入札または売値によるスパイク)。tickdata.com(PDF)によるこの論文は、問題の概要を説明するのに適していますが、具体的な解決策はほとんどありません。
この問題について言及している私がオンラインで見つけることができるほとんどの論文は、それを無視するか(tickdataがフィルターされていると想定されます)、または便利なフィルター手順を隠す巨大な取引モデルの一部としてフィルターを含めます。
この分野でより詳細な作業を知っている人はいますか?
更新: この質問は表面上は似ているように見えますが:
- 財務時系列は(少なくともティックレベルで)非周期的です。
- 開封効果は大きな問題です。なぜなら、本当にしたいのに、それ以外の場合は何も持っていないので、最終日のデータを初期化として単純に使用できないからです。外部の出来事により、新しい日のオープンは、絶対レベルと前日のボラティリティの両方で劇的に異なる場合があります。
- 着信データの非常に不規則な頻度。1日のほぼ開いた状態と閉じた状態では、1秒あたりのデータポイントの量は、1日の平均の10倍になります。もう1つの質問は、定期的にサンプリングされたデータに関するものです。
- 金融データの「外れ値」は、他のドメインでは適用できない特定の手法で検出できる特定のパターンを示しており、その特定の手法を部分的に探しています。
- より極端な場合(フラッシュクラッシュなど)、外れ値は長い間隔(> 10分)でデータの75%を超える可能性があります。さらに、着信データの(高)頻度には、状況の異常値の側面に関する情報が含まれています。