時系列分析の落とし穴


46

時系列分析で自己学習を始めたばかりです。一般的な統計には当てはまらない潜在的な落とし穴がいくつかあることに気付きました。それで、一般的な統計的罪とは何ですか?、 私は質問したい:

時系列分析における一般的な落とし穴または統計的な罪とは何ですか?

これは、コミュニティWikiであり、回答ごとに1つの概念があります。一般的な統計上の罪とは何ですか?

回答:


18

時系列の線形回帰の外挿。ここで、時間は回帰の独立変数の1つです。線形回帰は、短い時間スケールで時系列を近似し、分析に役立つ場合がありますが、直線の外挿は愚かです。(時間は無限であり、増え続けています。)

編集:naught101の「愚かな」という質問に答えて、私の答えは間違っているかもしれませんが、ほとんどの現実世界の現象は永遠に連続的に増減しないように思われます。ほとんどのプロセスには制限要因があります。年齢に応じて身長の成長が止まる、株が常に上がらない、人口が負にならない、数十億匹の子犬で家をいっぱいにすることはできません。念頭に置いて、無限のサポートがあるので、10年後は確実に存在するので、10年後のAppleの株価を線形モデルが予測することを本当に想像できます。(一方、身長と体重の回帰を外挿して、身長20メートルの成人男性の体重を予測することはしません。彼らは存在せず、存在しません。)

さらに、時系列には、多くの場合、周期的または疑似周期的なコンポーネント、またはランダムウォークコンポーネントがあります。IrishStatが彼の答えで言及しているように、季節性(時には複数の時間スケールで季節性)、レベルシフト(それらを考慮しない線形回帰に奇妙なことをする)などを考慮する必要があります。サイクルを無視する線形回帰は短期間に適合しますが、外挿すると非常に誤解を招く可能性があります。

もちろん、時系列であるかどうかにかかわらず、外挿するたびに問題が発生する可能性があります。しかし、私は頻繁に誰かがExcelに時系列(犯罪、株価など)を投げ、その上に予測またはLINESTをドロップし、株価が連続的に上昇するかのように本質的に直線で未来を予測するのを見かけているようです(または、マイナスになることを含め、継続的に減少します)。


なぜそれが愚かであるかを拡大できますか?
-naught101

1
素晴らしい例では+1。私はちょうど今何匹の子犬を家に入れることができるかを正確に計算しています:D
naught101

3
これはあなたのポイントの素晴らしい説明です:xkcd.com/605
ザック

1
@naught マーク・トウェインは、「馬鹿げた」が時系列の線形外挿に適切である理由を、可能な限り平易な言語で示してくれました。
whuber

そして、これ:stats.stackexchange.com/a/13904/9007 ...同様のポイントは、多項式トレンド(特に高度)の外挿、または物理的関連性のない他のモデルです。私がオクターブを教えていたとき、なぜこれが悪い考えあるかについてのブログ投稿を書きました。
naught101

13

2つの非定常時系列間の相関に注意してください。(それらが高い相関係数を持つことは予想外ではありません。「ナンセンス相関」と「共積分」で検索してください。)

たとえば、Googleの相関では、犬と耳のピアスの相関係数は0.84です。

古い分析については、Yuleの1926年の問題の調査を参照してください。


もちろん、常にではありません。x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
naught101

@Wayne Yuleの論文に感謝します。1970年から引用してきましたが、実際に読んだことがありません。いくつかの、明らかに小さな円でよく知られています。
IrishStat

7

トップレベルでは、コルモゴロフは独立性を統計の重要な仮定として特定ました-iid仮定なしでは、統計の多くの重要な結果は、時系列またはより一般的な分析タスクに適用されるかどうかに関係ありません。

ほとんどの実世界の離散時間信号の連続したサンプルまたは近くのサンプルは独立していないため、プロセスを決定論的モデルと確率的ノイズ成分に分解するように注意する必要があります。それでも、古典的な確率計算の独立した増分の仮定には問題があります:1997年のイーコンノーベルと、1998年の校長の間で受賞者を数えたLTCMの内破を思い出してください(公平ではあるが、ファンドのマネージャーMerryは、メソッド)。


研究分野としての「時系列分析」。基本的に、私は時系列の研究に新しい人をつまずかせる可能性のあるものを意味します(あらゆる種類のあらゆる種類の分析)。包括的な答えを探しているのではありません。ここでやろうとしていることの感触をつかむには、質問で参照した質問を確認してください。
-naught101

私はどのような意味タイプの分析
alancalvitti

知っている。あなたは質問の要点を見逃していると思います。どんなタイプ分析で、あなたが経験したあらゆるタイプの時系列問題の一般的な障害についてコメントしてください。時系列に固有の問題だけに留めてください。
-naught101

@alancalvittiさん、その経済学の例はおもしろそうです。ここからリンクできる説明がありますか?
-naught101

この回答を編集して、提示されたメインポイントに戻す(回答ごとに1ポイントのスタイルに戻す)ようにしました。それはスペクトル分析に関するものを取り除くことを意味しました。おそらく、別の答えでそれについて何かを言うことができます(それは落とし穴に関するものではないようですが、特に、ここで注意できるスペクトル分析関連の落とし穴があるでしょう)。上記の議論は今では意味がありませんが、あなたはそれを得ると思います:/
naught101

2

時系列の自己相関を考慮しない手法/モデル(OLSなど)を使用しているため、モデルの結果が非常に確実であること。

私には良いグラフはありませんが、「Rの導入時系列」という本(2009、Cowpertwait、et al)は、合理的な直観的な説明を提供します。時間内に一緒にクラスター化されます。これにより、平均の推定効率が低下します。つまり、自己相関がゼロの場合と同じ精度で平均を推定するには、より多くのデータが必要です。実際には、思っているよりも少ないデータしか持っていません。

OLSプロセス(およびユーザー)は、自己相関がないと想定しているため、平均の推定値は(データの量に対して)実際よりも正確であると想定しています。したがって、結果よりも自信があるはずです。

(これは、負の自己相関に対しては別の方法で機能します。平均の推定値は、そうでない場合よりも実際には効率的です。負の相関よりもシリーズ。)


ここでの例は素晴らしいだろう、私は答えが現状のままでは完全に理解していない
-naught101

@Wayneの編集をありがとう。明らかに、他の人もそれを追加できます-それはコミュニティwikiです。
-naught101

1
@ naught101:ああ。ここで行った3つの提案のうち2つは、私が学んだことを基にしていますが、良い例を作るのに必ずしも十分ではありません。ウェブ上で探してみます。
ウェイン

それはシミュレートされたデータにすぎませんが、別の質問に対する私の答えは、OLSに適合し、自己相関をより適切に考慮した、劇的に高いp値を持つRコードを持っています。 stats.stackexchange.com/questions/27254/...
ピーター・エリス

2

ワンタイムパルスに加えて、レベルシフト、季節的パルス、現地時間の傾向の影響。経時的なパラメータの変更は、調査/モデル化するために重要です。経時的な誤差の分散の可能な変化を調査する必要があります。Xの同時かつ時間差のある値がYに与える影響を判断する方法。Xの将来の値がYの現在の値に影響を与える可能性があるかどうかを識別する方法。月の特定の日を見つける方法が影響します。時間ごとのデータが日ごとの値の影響を受ける混合周波数の問題をモデル化する方法は?

naughtは、レベルシフトとパルスに関するより具体的な情報/例を提供するように頼みました。そのために、もう少し議論します。非定常性を示唆するACFを示すシリーズは、事実上「症状」をもたらしています。推奨される解決策の1つは、データを「差分」することです。見落とされがちな救済策は、データを「軽meanする」ことです。シリーズに平均(つまりインターセプト)の「メジャー」レベルシフトがある場合、このシリーズ全体のacfは簡単に誤って解釈され、差異を示唆する可能性があります。レベルシフトを示すシリーズの例を示しますが、2つの差を強調(拡大)した場合、合計シリーズのacfが(誤って!)差の必要性を示唆することを意味します。未処理のパルス/レベルシフト/季節的パルス/ローカルタイムトレンドは、モデル構造の重要性をわかりにくくするエラーの分散を増大させ、パラメーター推定値の欠陥や予測不良の原因となります。次に例を示します。Thここに画像の説明を入力してくださいは、27の毎月の値のリストです。これがグラフここに画像の説明を入力してくださいです。4つのパルスと1つのレベルシフトがあり、トレンドはありません!ここに画像の説明を入力してくださいおよびここに画像の説明を入力してください。このモデルの残差は、ホワイトノイズプロセスを示唆していますここに画像の説明を入力してください。いくつかの(ほとんどの!)商用および無料の予測パッケージでも、季節性因子が追加されたトレンドモデルを仮定した結果、次のような愚かさをもたらしここに画像の説明を入力してくださいます。最後にマーク・トウェインを言い換えます。「ナンセンスがあり、ナンセンスがありますが、それらの中で最も非感覚的なナンセンスは統計的なナンセンスです!」より合理的に比べてここに画像の説明を入力してください。お役に立てれば !


1
本当に?これらはすべて落とし穴ですか?(質問の強調された部分をもう一度読んでください!)おそらく、あなたが書いたものの反対を意味しますか?
whuber

私のコメントの意図は、これらの可能な現実の構造のいくつかを楽しまないか、考慮しないことの落とし穴を指摘することでした。合理的に検証されていない仮定を避ける必要があります。そうしないと、非常に疑わしい結果が得られる可能性があります。
IrishStat

3
私はその意図を集めましたが、現在の形ではあなたの返事は誤解されやすいです。たとえば、「1回限りのパルス」の「影響」を評価するのは罪ですか、それともしないのは罪ですか。これは、どちらの解釈についても良いケースが作成されるほど曖昧です!(はい、それは罪です。1回のパルスは過度の影響を与えたくない外れ値であり、それらをすべて考慮するとモデルがオーバーパラメーター化される可能性があるためです。いいえ、それらの影響は長い間、それを無視すると、他のパラメーターの推定値にバイアスがかかる可能性があります。)
whuber

@whuberワンタイムパルスの影響が続く場合、これは連続したポイントでのワンタイムパルスのシーケンスとしてモデル化できます。これは見た目ほどエレガントではありませんが、それでも効果的です。あなたが非常に正確に述べたように、繰り返し構造のパラメーター推定を歪める誤った値を持ちたくないので、パルス、レベルシフト、季節パルスおよび/またはローカル時間傾向などの不特定の決定論的構造を扱わないことは「罪」です。
IrishStat

最初の文(レベルシフトとパルス)が(いくつかの例を使用して)大幅に拡張され、残りが削除された場合、これは本当に興味深い答えになると思います。異分散性は、適切な個別の回答を作成します。
naught101

1

長期にわたる線形成長としてのトレンドの定義。

一部の傾向は何らかの形で線形になりますが(Appleの株価を参照)、時系列グラフは線形回帰を見つけることができる折れ線グラフのように見えますが、ほとんどの傾向は線形ではありません。

特定の時点で何かが発生して測定動作が変更された場合の変更など、ステップの変更があります(「橋が崩壊し、それ以降は車は通過しません」)。

もう1つの人気の傾向は「バズ」です指数関数的な成長とその後の同様の急激な減少(「当社のマーケティングキャンペーンは大成功でしたが、効果は数週間後に消えました」)。

時系列データのトレンドを検出するためには、時系列トレンドの適切なモデル(ロジスティック回帰など)を知ることが重要です。


1

すでに言及されているいくつかの素晴らしい点に加えて、私は追加します:

  1. 長いサイクルまたは季節性を見つけられない-「十分に長い」期間のデータのみを調べる
  2. 過去の期間の予測エラーの評価の失敗(バックテスト
  3. 政権交代の検出と対処の失敗

これらの問題は、関連する統計的手法ではなく、研究の設計、つまりどのデータを含めるか、結果を評価する方法に関連しています。

ポイント1の扱いにくい部分は、将来について結論を出すために十分な期間のデータを確認したことを確認することです。時系列に関する最初の講義で、教授はボード上に長い洞曲線を描き、短いウィンドウで観察すると長いサイクルが線形トレンドのように見えることを指摘しました(非常に単純ですが、レッスンは私に固執しました)。

ポイント2.は、モデルのエラーに実際的な意味がある場合に特に関連します。他の分野の中でも、金融業界では広く使用されていますが、過去の期間の予測エラーを評価することは、データが許すすべての時系列モデルにとって非常に理にかなっていると思います。

ポイント3.は、過去のデータのどの部分が未来を代表するかという主題に再び触れます。これは大量の文献を含む複雑なトピックです-私の個人的なお気に入りを例に挙げます:ズッキーニとマクドナルド


1

サンプリングされた時系列のエイリアスを避けます。定期的にサンプリングされる時系列データを分析する場合、サンプリングレートは、サンプリングするデータの最高周波数成分の2倍の周波数でなければなりません。これはナイキストのサンプリング理論であり、デジタルオーディオに適用されますが、定期的な間隔でサンプリングされた時系列にも適用されます。エイリアシングを回避する方法は、ナイキストレート(サンプリングレートの半分)を超えるすべての周波数を除外することです。たとえば、デジタルオーディオの場合、48 kHzのサンプルレートには、24 kHz未満のカットオフを持つローパスフィルターが必要です。
エイリアシングの効果は、ストロボレートがホイールの回転速度に近いストロボ効果により、ホイールが後方に回転しているように見える場合に見られます。観察される遅い速度は、実際の回転速度のエイリアスです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.