サイズが等しくない2つの変数間の相関


9

私が取り組んでいる問題で、XとYの2つの確率変数があります。2つがどれほど密接に相関しているかを理解する必要がありますが、それらは次元が異なります。Xの行スペースのランクは4350であり、Yの行スペースのランクは数万とかなり大きくなっています。XとYの両方に同じ数の列があります。

2つの変数間の相関関係の測定が必要です。ピアソンのrは、XとYの次元が等しい必要があります(少なくともRは、2つのrvが必要です)。

これらの2つの間に相関関係を作る希望はありますか、それともYからの観測を切り捨てる方法を見つける必要がありますか?

 EDIT

質問に含まれるべきコメントから情報を追加します。

私はこれについて言及するのを忘れたと思います。XとYは株価です。X社はY社よりもはるかに短い期間公開されました。XとYの価格がどのように相関しているかを教えてください。XとYの両方が存在する期間の相関関係を確実に得ることができました。Xが存在しないというYの余計な数年間の株価を知ることで、追加情報が得られるかどうか知りたいと思いました。


2
これは、XとYの両方の実現を観測する観測(または「ケース」)があるようには聞こえません。どのXがどのYに関連付けられているかをどのようにして見つけますか?
ステファンコラサ

1
私はこれについて言及するのを忘れたと思います。XとYは株価です。X社はY社よりもはるかに短い期間公開されました。XとYの価格がどのように相関しているかを教えてください。XとYの両方が存在する期間の相関関係を確実に得ることができました。Xが存在しないというYの余計な数年間の株価を知ることで、追加情報が得られるかどうか知りたいと思いました。
Christopher Aden、

2
@クリストファー上記のコメントを反映するように質問を更新することをお勧めします。また、相関関係を意味のあるものにするためには、等しい次元以上のものが必要です。実際の測定値は同じケースからのものである必要があります。あなたのケースでは、おそらく同じ時点です。
Jeromy Anglim

2
私の質問を更新上の第二Jeromyさんのコメント...
ステファンKolassa

別の質問:あなたは、XとYが同じ数の列を持っていると述べました。それはそれぞれ1つでしょうか?または、XとYの両方に複数のシリーズがありますか(異なる証券取引所での価格など)?
ステファンコラサ

回答:


10

補完、時系列分析、GARCHモデル、補間、外挿、またはその他の派手なアルゴリズムは、情報が存在しない場所に情報を作成することはありません(ただし、幻覚を作成することはできますが;-)。Xが公開される前のYの価格の履歴は、その後の相関関係を評価するのに役に立ちません。

時々(多くの場合IPOの準備)、アナリストは内部の会計情報(またはプライベート株式取引の記録)を使用して、Xの株式が公開される前に仮想価格を遡及的に再構築します。おそらくそのような情報は相関の推定を強化するために使用できますが、そのようなバックキャストの非常に暫定的な性質を考えると、Xの価格が数日または数週間しか利用できない場合を除いて、この努力が役に立たないと思います。


明確化:データ欠落の問題(もちろん意味がありません)に対処するためにGARCHについて言及しませんでしたが、両方が存在するときの時系列間の相関の単純な計算を改善するためです。
ステファンコラサ

@Stephan:OK。主にあなたを無視していないことを示すためにそれを述べました!
whuber

1
ありがとう、whuber。これは私が探していたものと一致しています。XとYの間の相互のタイムフレームがすでに約16年である場合、バックキャスティングがXをさらに2週間追加するのにあまり役に立たない(または実現可能性がある)とは思いません。
Christopher Aden、

2
@クリストファー:!! 16年間(毎日の休業日?)との相関関係を見つけるだけでなく、それが時間の経過とともにどのように変化しているかを調べるのに十分なデータがあります。(これは@Stephan Kolassaの返信の精神だと思います。)
whuber

同意する。XOがIPOの前にどのような値をとっていたかを把握するための手法を使用すると、エラーが発生しやすくなります。また、現代の傾向を予測するための16年前のデータの関連性にも疑問を抱くかもしれません。
Christopher Aden、

10

したがって、問題は欠落データの1つです(すべてのYが対応するXを持っているわけではなく、対応は時点を介して操作可能です)。ここでは、Xを持たないYを捨てて、完全なペアの相関関係を計算する以外に多くのことはないと思います。

現時点では便利な参考資料はありませんが、財務時系列を読んでおくとよいでしょう(アイデア、誰か?)。株価は時々変動するボラティリティを示すことが多く、これはGARCHなどによってモデル化できます。2つの時系列XとYは、低ボラティリティの期間中に正の相関を示し(経済が成長するとすべての株価が上昇する傾向があります)、全体的なボラティリティが高い(9/11の航空会社はお金はより安全な投資に逃げました)。したがって、全体的な相関を計算するだけでは、観測時間フレームに依存しすぎる場合があります。

更新:VAR(ベクトル自己回帰)モデルを見たいと思うかもしれません。


基本的な財務時系列参照については、ここで私の答えを見ることができます:stats.stackexchange.com/questions/328/…。Tsayテキストは最も人気のあるものの1つです。
シェーン

2

@Jeromy Anglimはこれを正しく指定しました。時系列が1つしか存在しない場合に追加情報を取得しても、ここでは価値がありません。また、原則として、従来の相関測定を使用して意味のあるデータを同時にサンプリングする必要があります。

より一般的な問題として、不規則な間隔の時系列データを処理する手法があることを付け加えておきます。「不等間隔の時系列相関」で検索できます。最近の研究のいくつかは、高周波データを使用して「実現ボラティリティと相関」(Andersen、Bollerslev、Diebold、Labys 1999)で行われました。


1

コメントの追加情報を考慮して、2つの相関関係を確認することをお勧めします。1つ目は、企業が共にいた一般的な期間です。したがって、約2年前であれば、そのデータを削除して残りの部分を確認するだけです。2番目は、相対的な期間です。2番目の例では、実際の時間ではなく、会社が公開されてから測定された時間を関連付けています。

前者は、同じ期間に共有された一般的な経済力の影響を強く受けるでしょう。後者は、企業がIPO後に変化するため、企業が共有するプロパティの影響を受けます。


0

このような問題を解決する別の方法は、特定のコンテキストで意味がある場合とない場合がある時系列モデルを使用して、短い系列の欠落データを補完することです。

あなたのコンテキストでは、株価を過去に帰属させることは、次の反事実的な質問をしていることを意味します:実際に株式公開されたときではなく、過去X年に株式公開された場合、X社の株価はどうなりますか?このようなデータの補完は、関連会社の株価、一般的な市場動向などを考慮に入れることによって行われる可能性があります。しかし、そのような分析は、プロジェクトの目的上、意味がないか、必要ない場合があります。


0

まあ多くはあなたが作る仮定に依存します。データが定常的であると想定する場合、シリーズ1のデータが多いほど、そのボラティリティをより正確に推定できます。この推定は、相関推定を改善するために使用できます。したがって、次のステートメントは正しくありません。

「Xが公開される前のYの価格の履歴は、その後の相関関係を評価するのに役に立たない」


私はこれについて考えました。理論的には機能する可能性がありますが、非常に堅牢ではないため、回避することをお勧めします。
kjetil b halvorsen 2017

-1

これは、機械学習アルゴリズムの問​​題のように聞こえます。したがって、私はトレンドの特定の側面を説明する一連の機能を理解し、それについてトレーニングすることを試みます。機械学習理論全体は、この回答ボックスにとって少し複雑ですが、それを読むと役立ちます。

正直なところ、それはすでに存在していると思います。お金を稼ぐことができるところで、人々はそれに心を向けます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.