ボリューム時系列の相関


12

次のグラフを検討してください。

twitterと取引量

赤い線(左軸)は、特定の株式の取引量を示しています。青い線(右軸)は、その株式のtwitterメッセージの量を示しています。例えば、5月9日(05-09)に約1億件の取引と4.000のツイートが行われました。

私は、同じ日またはラグのある時系列の間に相関があるかどうかを計算したいと思います-例えば:ツイート量は1日後に取引量と相関します。私はそのような分析を行った多くの記事を読んでいます。例えば、金融時系列とマイクロブログ活動との相関関係です。この記事には次のことが記載されています。

ここに画像の説明を入力してください

しかし、私は統計分析の経験がほとんどなく、私が持っているシリーズでこれを実行する方法がわかりません。私はSPSS(PASWとも呼ばれます)を使用しますが、質問は次のとおりです。上記のイメージの基礎となるデータファイルがある時点からこのような分析を行うための手順は何ですか?そのようなテストはデフォルトの機能(およびそれは何と呼ばれる)であるか、および/または他の方法でそれを実行できますか?

どんな助けも大歓迎です:-)


1
あなたはそれらを計算することができます...あなたは2つのシリーズが二変量正規でない限り、それらを臨界値と比較することはできません
-IrishStat

ここに生データを貼り付けました:pastebin.com/tZajRae9シリーズが二変量正規分布であるかどうかを確認する方法はありますか?あなたのコメントを本当に感謝します。
-Pr0no

各系列の外れ値/レベルシフトを検出した後、結果の調整された系列はAR(1)モデルを示しました。外れ値/レベルシフト調整と経験的に特定されたAR(1)だけでなく、両方のノイズシリーズは(構造内で)自己相関がありませんでした。この2つのサロゲートシリーズの相互相関は、構造間の実質的な相互相関がないことを示しているため、つぶやきの数はボリュームの予測に役立ちません。
IrishStat

回答:


6

2変量正規性の2つのチェックは3つのことをチェックします。

  1. 最初の一連の観測値がわずかに正常かどうかを確認し、
  2. 2番目の一連の観測値がわずかに正常かどうかを確認します。
  3. 互いに回帰し、残差が正常かどうかを確認します。

これらの各ステップで正規性を確認するには、通常のqqプロットを使用するか、任意の正規性仮説検定を使用できます。

または、2つの系列のすべての可能な線形結合(実係数)がわずかに正常であるかどうかを確認できます。しかし、それはおそらく難しいでしょう。

編集:(6年後)後世のために上記を保持しますが、ここで同様の質問に対する最近の回答があることに注意してください


手順1と2を実行し、次のボックスプロットを作成しました。i.imgur.com/ SDOTE.png 3〜5の外れ値の観測値を除き、それらはわずかに正常に見えます。ただし、Sig。Shapiro-Wilkテストの値は0.000です。これは、正規性からの大幅な逸脱を示しています。外れ値を削除して、Shapiro Wilk Sig。ツイートの場合は0.201、トレードの場合は0.004です。これは、相関が不可能であることを示していますか?また、これは時系列です-外れ値を削除することは、調査した時間枠内の日を削除することを意味します。これは受け入れられた慣行ですか?
Pr0no

また、ステップ3のppプロットも作成しました。または、少なくとも、私の解釈では、これが必要です(通常の確率プロットを使用した線形回帰):i.imgur.com/EZ3Ic.pngコメントはありますか?
Pr0no

周辺分布は正常に見えません。ウィキペディアのページリンクには、推論に関する小さなセクションがあります。一般に、外れ値を削除することはお勧めできません。たぶん、信頼区間をブートストラップするでしょう。
テイラー

1
問題は相関関係に関するものですが、答えは正規性に関するものです。答えは複数回支持され、受け入れられます。私はここで行方不明です..?
リチャード・ハーディ

二変量正規分布は、ピアソン相関を使用して動機付け/正当化する最も単純なモデルです。
テイラー

11

時系列間の相関係数は役に立ちません。相関係数-テストの重要性の重要な値を参照してください。これは、1926年にユー・ユールによって最初に指摘された、1926年、ユール、1926年、「時系列の間にナンセンスな相関関係を得ることがあるのはなぜですか?サンプリングと時系列の性質の研究」、王立統計学会誌89、1 -64。「なぜナンセンス相関を取得するのか」をグーグルで検索することもできます。

この理由は、相関が正常であるかどうかをテストするためです。共同正規性では、各系列が正常である必要があります。正常には独立が必要です。時系列間の関係を調べるには、William WS Wei、David P. Reillyによる時系列分析:単変量および多変量法のような優れた時系列の本で伝達関数の同定を確認してください。

チャレンジアンサー

あなたの挑戦への答えに関して。2つの時系列の相関は特にどちらかの系列がパルス/レベルシフト/季節パルスおよび/または現地時間の傾向の影響を受ける場合に特に問題となる可能性があることはよく知られています(Yule、GU、1926)。その場合は、各シリーズを別々に取り、ARIMA構造と、適用されてエラープロセスを作成する可能性のあるパルス/レベルシフト/季節パルスおよび/または現地時間の傾向を特定します。

2つの元のシリーズごとに2つのクリーンエラープロセスを使用して、相互相関を計算し、それを使用して各シリーズ内の自己相関構造の上下の関連度を測定できます。このソリューションは、二重事前ホワイトニングアプローチと呼ばれています。

見る:


お返事をありがとうございます。しかし、私が言及した論文では、定義上、価値がないと言っていますか?第二に、これは、相関関係に意味がある場合、定義により2つのシリーズを相関させることができないことを意味していますか?
Pr0no

3
単純な算術であるため、相関を計算できます。(簡単に)計算できないのは、相関が統計的に有意である確率です。相関係数に初めて触れたときのことを思い出してください。N個の独立したサンプルのコンテキストで、N個の独立したサンプルのそれぞれについて2つの特性/値が計算され、ジョイント密度は2変量正規分布でした。
IrishStat

1
なぜ同じ(対称?)分布ではなく、共同正規性が必要なのですか?すなわち、ジョイントの均一性も機能しませんか?
-naught101

1
@ NAUGHT101 相関係数の臨界値は、共同正規性と未定義の仮定の下で利用可能です。
IrishStat

@IrishStat編集済みの回答をありがとうございます。ありがたいです。正規性のテストについては、個別の変数のqqプロットについてi.imgur.com/SDOTE.pngを参照してください。外れ値が削除された後、ppプロットは、ジョイントノルム性を測定するものであると私が理解するものから、このようになりますi.imgur.com/EZ3Ic.pngコメントはありますか?
Pr0no
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.