教師あり学習データセットの自己相関は問題ですか？

10

次の問題を想像してみてください。Kアイテムの価格データと、さまざまな機能/予測子のスナップショットを毎週持っています。2年後の価格がどのくらい変わるか予測したい。

次のようにデータセットを組み立てます。各行は各週の各アイテムの機能で構成され、出力変数は2年間の価格リターンです。観測の日付がデータセットにない-私はそれをデータセットをトレーニングと検証セットに分離するためにのみ使用します。つまり、相互検証（検証期間の前後2年間のデータを破棄します） 1年）データの盗聴を防止するため）。

明らかに、同じ項目（および異なる項目の場合も）の2週間連続のサンプルは、機能と応答変数の両方の点で高度に相関します（今後2年間は大部分が重複するため、リターンを意味します）非常に似ています）。ランダムフォレストや勾配ブーストツリーなど、教師付き学習アプローチにどのような潜在的な問題が発生する可能性がありますか？

私の考えは：

データセットの有効サイズは、予想よりも小さくなります。つまり、たとえば100,000の観測のデータセットは、100'000 /（52 * 2）〜= 1000の観測のデータセットのように動作します。これは、応答に自己相関がないサンプルの数だからです。これは、データに適合できるモデルの複雑さに大きく影響します。つまり、過剰適合問題が発生し、予想よりもはるかに悪い結果になります。
フィーチャスペース内の各アイテムの連続した週にフィーチャが互いに非常に接近しているため、私のデータセットはフィーチャスペースを予想よりもかなりカバーし、データセットの「有効」サイズが減少します。
クロスバリデーションの検証に1年分のデータのみを使用すると、クロスバリデーションの結果の分散が大きくなります。これも、検証セットのサンプルの有効数が52 * Kではなく〜Kになるためです。

これらは有効な懸念事項ですか？はいの場合、K〜= 100の場合、ランダムフォレストや勾配ブーストツリーを使用するなど、数百の機能から合理的に複雑な非線形モデルをトレーニングするには、数千年ではなくても数百のデータが必要になるということですか？それとも、私は過度に悲観的で、上記の「有効なデータセットのサイズ」に関する私の議論は無意味ですか？

— ゆるい
ソース

6

あなたは計量経済学の文献で類似している問題に触れます。それは、長期的な予測可能性の問題と呼ばれています。短期的に株式市場と通貨を予測することは困難ですが、一部の計量経済学的研究では、配当利回りなどの共変量を使用すると、長期的な収益が「はるかに予測可能」であることが示されています。

さて、これらのモデルには微妙な欠陥があることがわかりました。応答と予測子の両方が重複する期間をカバーするため、それらは地平線全体で高度に自己相関し、データポイントは独立していません。

これが私の図書館で見つけることができたいくつかの論文です。Berkowitzの論文は、おそらくこのテーマに関して最も破壊的なものです。

長期的な予測可能性を示す研究：

マーク、ノースカロライナ＆チェ、DY（1997）。長い期間にわたる実際の為替レート予測。Journal of International Economics、43（1）、29-60。

批評と統計テスト：

Berkowitz、J.＆Giorgianni、L.（2001）。長期的な為替レートの予測可能性？経済と統計のレビュー、83（1）、81-91。

Boudoukh、J.、Richardson、M.＆Whitelaw、RF（2006）。長期的な予測可能性の神話。金融研究のレビュー、21（4）、1577-1605。

リチャードソンM.＆スミスT.（1991）。観察が重複している場合の財務モデルのテスト。金融研究のレビュー、4（2）、227-254。

— ホレス
ソース

2

ありがとうございました。文献（バーコウィッツの批判に対するマークの反応を含む）をざっと見てみると、長期的なリターンが「より予測可能」であるかどうかの問題は完全に解決されていないことがわかります。データセット全体からの機能選択を無意識のうちにモデルに導入しない限り、相互検証を正しく使用すれば、誤った相関関係をあまり心配する必要はないようです。しかし、サンプルサイズが問題になるかどうかは、まだはっきりしていません。

— rinspy 2017

@rinspyトピックについて読んだことをうれしく思います。久しぶりですが、私の印象は、ベルコヴィッツらがはるかに強力なケースであり、マークの弁護が説得力がないので、これとそれについての「長期的な予測可能性」に関する論文はこれまで見たことがありません。さてあなたの質問に戻りましょう。CVを「正しく」使用することの意味がわかりません。詳しく説明してください。

— horaceT 2017

@rinspy問題の根本はデータの独立性です。ほとんどすべての機械学習アルゴリズムは、この基本的な仮定に依存しています。重なり合うものを測定した2つのデータポイントを取得する場合、2つのデータポイントは独立していません。私が知っている、この仮定を必要としない唯一のアルゴリズムは強化学習です。

— horaceT 2017

3

あなたの問題を次のようにスケッチしましょう：

\begin{matrix} (1) & f ({X_{t} : t \leq T}) = X_{T + 1} \end{matrix}

$f(\{X_t: t \leq T \}) = X_{T+1} \tag{1}$

つまり、関数を機械学習しようとしています。機能セットは、まで利用可能なすべてのデータです。どういうわけか過負荷の表記法で、を確率論的プロセスと見なす場合、がフィルター（増加する情報の流れ）に適応するように強制することは便利だという事実を強調したかった-ここでフィルターについて言及している完全性のために。 $f(x)$ $T$ $X$ $X$

また、式を推定しようとしていると見なすこともできます（ここ）： $1$

E [X_{T + 1} | X_{T}, X_{T - 1}, . .] = f ({X_{t} : t \leq T})

$E[X_{T+1} | X_T, X_{T-1}, ..] = f(\{X_t: t \leq T \})$

私の頭に浮かぶ最も単純なケース-OLS線形回帰-には次のようなものがあります。

E [X_{T + 1} | X_{T}, X_{T - 1}, . .] = X b + e

$E[X_{T+1} | X_T, X_{T-1}, ..] = Xb + e$

統計学習と古典的な計量経済学をつなぐために、この考え方を提案します。

推定方法に関係なく（線形回帰、ランダムフォレスト、GBMなど）、、プロセスXの定常性に対処する必要がありますつまり、どのようには時間内に動作します。確率的プロセスの時間同種性のフレーバーを与えることを試みる定常性の複数の定義があります。つまり、予測範囲を広げるときに期待値の推定量の平均と分散がどのように動作するかです。 $E[X_{T+1} | X_T, X_{T-1}, ..]$ $E[X_{T+1} | X_T, X_{T-1}, ..]$

均一性の種類がない最悪のシナリオでは、すべての{X_t}は異なる確率変数から取得されます。
最良のシナリオ、iid。

自己相関の影響定常の種類確率論的プロセスが表示されます：自己共分散関数最悪と最良の場合のシナリオの間に、我々は、、二つの測定の間の時間のギャップがあるが、弱い定常プロセスを特徴付けます。自己相関関数は、自動共分散関数（source、source）のスケールに依存しないバージョンです。 $\gamma(h)$ $h$

平均関数m（t）が一定で、共分散関数r（s、t）がどこでも有限であり、時間差τ= t − sのみに依存する場合、プロセス{X（t）、t∈T}は、弱定常または共分散定常（ソース）と呼ばれる

弱く固定されたフレームワークは、データの処理方法をガイドします。重要なポイントは、敷物の下に自己相関を置くことができないということです-あなたはそれに対処しなければなりません：

時間メッシュの粒度を増やします。データポイントを破棄します（粒度を減らし、モデルをトレーニングするためのデータを大幅に減らします）。ただし、とすると、相互検証に多くの変動が見られます。 $E[X_{T+1} | X_T, X_{T-1}, ..]$
時間メッシュの細分度を上げます。サンプリング、チャンキング、交差検証はすべてはるかに複雑です。モデルの観点からは、自己相関を明示的に処理する必要があります。

— IcannotFixThis
ソース