主成分分析は株価/非定常データに使用できますか?


10

私は「ハッカーのための機械学習」という本の例を読んでいます。最初に例について詳しく説明し、次に私の質問について話します。

25株価の10年間のデータセットを取得します。25の株価でPCAを実行します。主成分をダウジョーンズインデックスと比較します。PCとDJIの非常に強い類似性を観察します!

私が理解していることから、この例は、私のような初心者がPCAのツールがいかに効果的であるかを理解するのに役立つおもちゃのようなものです!

しかし、別のソースから読むと、株価は非定常であり、株価でPCAを実行することは不合理であることがわかります。私が読んだソースは、株価の共分散とPCAを計算するという考えを完全にばかげています。

質問

  1. この例はどのようにうまく機能しましたか?株価のPCAとDJIは非常に近いものでした。そしてデータは2002-2011年の株価からの実際のデータです。

  2. 誰かが静止/非定常データを読み取るための素晴らしいリソースを私に指摘できますか?私はプログラマーです。数学の知識が豊富です。しかし、私は3年間真剣な数学をしていません。ランダムウォークなどについてまた読み始めました。

回答:


10

この部分は、元の質問と、@ JonEgilの回答に対するコメントで提起された質問の一部に部分的に回答するのに役立ちます。

i.i.d.i.i.d.i.i.d.。これが、価格ではなく(対数)リターンでPCAを実行することが理にかなっている理由です。

i.i.d.

Ptr:=log(Pt)log(Pt1)=logPtPt1r:=PtPt1Pt1hh


1
+1、これは面白いです。実際に「返品」とは何かを少し拡張できますか?私の経済学の知識はゼロです。私はグーグルし、価格が与えられる場合ことを発見しましたf(ti)logf(ti+1)f(ti)

1
@amoeba、私は簡単な説明を追加し、今すぐ出発しなければなりません。私はそこであまり多くの過ちを犯さなかったと思います。さらに問題があれば明日またお会いしましょう。
Richard Hardy

1
ありがとう。リターン(対数リターン)は基本的に価格の対数の導関数(最初の差)であることがわかります。したがって、リターンがiidであり、ログ価格がランダムウォークであるという主張である場合、それは理にかなっています。しかし、私はまだダウジョーンズの例に驚いており、さらなる説明があれば感謝します。
amoebaは、モニカ

6

私はこれらのタイプの分析を専門的に実行し、実際にそれらが有用であることを確認できます。ただし、価格でなく収益を分析するようにしてください。これは、細長手段の批評でも強調されています。

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

私たちの分析の典型的なユースケースは、市場でのシステミックリスクを定量化することです。市場でより多くの動きがあるほど、ポートフォリオで実際に持つ分散化は少なくなります。これは、例えば、第1主成分によって記述される分散の量によって定量化できます。これは、最初の固有値の値と同じです。

財務データの場合、通常、時間の経過とともに変動するウィンドウを調べます。古い観測値をダウンウェイトする何らかの減衰係数が役立ちます。日次データの場合は20〜60日、週次データの場合はおそらく1〜2年、すべてニーズに応じて異なります。

数万から数十万の資産価格が絶えず変化するグローバルな金融市場では、1つの典型的なものでは100Kと100Kの共分散行列を実行できないことに注意してください。代わりに、典型的なユースケースは、国ごと、セクターごと、またはその他のより意味のあるグループごとに分析を実行することです。または、一連の基本的な要素(値、サイズ、品質、クレジットなど)によって収益を分類し、これらに対してPCA /共分散分析を行います。

いくつかのすばらしい記事には、有効なベット数に関するAttilio Meucciの議論が含まれています。http: //papers.ssrn.com/sol3/papers.cfm?abstract_id = 1358533

、およびLedoitとWolf's Honeyもサンプル共分散行列 http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf を縮小しました

定常性への財政的志向の導入については、Investopediaから始めてみませんか。厳密ではありませんが、主なアイデアを伝えています。

幸運を!

編集:これは2015年までの毎日のリターンでアップル、グーグル、ダウジョーンズを示す3株の例です。上三角はリターンの相関を示し、下三角は価格の相関を示します。

上三角のリターン相関、下三角の価格相関

見てわかるように、Appleはリターン相関(右上0.66)よりもダウ(左下0.76)との価格相関が高くなっています。そのことから何を学ぶことができますか?あまりない。GoogleはApple(-0.28)とDow(-0.27)の両方と負の価格相関があります。繰り返しますが、そこから学ぶことはあまりありません。ただし、リターンの相関関係から、AppleとGoogleの両方がDowとかなり高い相関関係を持っていることがわかります(それぞれ0.66および0.53)。これは、ポートフォリオ内の資産の連動(価格変更)について何かを教えてくれます。それは有用な情報です。

重要な点は、価格相関は同じように簡単に計算できますが、興味深いものではないということです。どうして?株価自体は面白くないからです。ただし、価格の変動は非常に興味深いものです。


価格と返品の違いについての質問の主要部分をさらに詳しく説明してもらえますか?価格を使用する場合、相関行列は非定常性の影響を受けることを理解しています。たとえば、すべての価格が直線的に増加する場合、すべての相関は強く正になります。まず、なぜそれが悪いのですか?特に、ダウジョーンズは基本的に平均価格であり、PC1と同様に成長します。第二に、リターンの使用はどのように役立つはずですか?AFAIKの「戻り値」は、隣接するポイントの比率のログです。なぜそれが意味があるのですか、それはダウジョーンズとどのように関連していますか?
アメーバはモニカ

有益な返信をありがとう。しかし、それは私の質問に答えません。本のデータセットで価格分析がうまく機能している理由を知りたいのですが。そして、アメーバは多くの有効な質問を提起しました。
claudius

1
@claudius:価格のPCAが平均価格であるDow Jonesに似ているという事実は、まったく驚くことではありません。返品時のPCAがより適切な適合を生成する理由を私は不思議に思っています。おそらくジョンは明らかにすることができるでしょう。
amoebaは、モニカ

1
私はハッカーのためにMLで実行される実際のコードを見ていませんが、誰かが価格を分析すると言うときは常に、100の99倍が実際に分析するのはログリターンです。たとえば、今日のダウは162ポイント下落していますが、アップルは0.88ドル下落しています。数字が大きく異なるだけでなく、インデックスポイントとお金のスケールも異なります。しかし、PCT用語では0.91%と0.75%は比較可能であり、数値は処理したいものです。一部の分析では、平均を差し引くことでデータの傾向を取り除くことができます。短期的な財務時系列では、傾向がないと仮定して、これはしばしば無視されます。
Jon Egil

1
@amoeba、コメントで提起された質問に(部分的に)答えるために、価格はほぼランダムウォークですが、返品はほぼiidです。主成分は、iidの観測を前提として、優れた特性を備えています。これが、価格ではなく返品に対してPCAを実行することが理にかなっている理由です。Ruey S. Tsayは、金融時系列の計量経済モデルからの残差に対してPCAを実行することについて主張しました。残差は通常iidであると想定されるため、彼の「RとFinancial Applicationsを使用した多変量時系列分析」のテキストのどこかに含まれていると思います。
Richard Hardy
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.