時系列分析で自己学習を始めたばかりです。一般的な統計には当てはまらない潜在的な落とし穴がいくつかあることに気付きました。それで、一般的な統計的罪とは何ですか?、 私は質問したい:
時系列分析における一般的な落とし穴または統計的な罪とは何ですか?
これは、コミュニティWikiであり、回答ごとに1つの概念があります。一般的な統計上の罪とは何ですか?
時系列分析で自己学習を始めたばかりです。一般的な統計には当てはまらない潜在的な落とし穴がいくつかあることに気付きました。それで、一般的な統計的罪とは何ですか?、 私は質問したい:
時系列分析における一般的な落とし穴または統計的な罪とは何ですか?
これは、コミュニティWikiであり、回答ごとに1つの概念があります。一般的な統計上の罪とは何ですか?
回答:
時系列の線形回帰の外挿。ここで、時間は回帰の独立変数の1つです。線形回帰は、短い時間スケールで時系列を近似し、分析に役立つ場合がありますが、直線の外挿は愚かです。(時間は無限であり、増え続けています。)
編集:naught101の「愚かな」という質問に答えて、私の答えは間違っているかもしれませんが、ほとんどの現実世界の現象は永遠に連続的に増減しないように思われます。ほとんどのプロセスには制限要因があります。年齢に応じて身長の成長が止まる、株が常に上がらない、人口が負にならない、数十億匹の子犬で家をいっぱいにすることはできません。念頭に置いて、無限のサポートがあるので、10年後は確実に存在するので、10年後のAppleの株価を線形モデルが予測することを本当に想像できます。(一方、身長と体重の回帰を外挿して、身長20メートルの成人男性の体重を予測することはしません。彼らは存在せず、存在しません。)
さらに、時系列には、多くの場合、周期的または疑似周期的なコンポーネント、またはランダムウォークコンポーネントがあります。IrishStatが彼の答えで言及しているように、季節性(時には複数の時間スケールで季節性)、レベルシフト(それらを考慮しない線形回帰に奇妙なことをする)などを考慮する必要があります。サイクルを無視する線形回帰は短期間に適合しますが、外挿すると非常に誤解を招く可能性があります。
もちろん、時系列であるかどうかにかかわらず、外挿するたびに問題が発生する可能性があります。しかし、私は頻繁に誰かがExcelに時系列(犯罪、株価など)を投げ、その上に予測またはLINESTをドロップし、株価が連続的に上昇するかのように本質的に直線で未来を予測するのを見かけているようです(または、マイナスになることを含め、継続的に減少します)。
2つの非定常時系列間の相関に注意してください。(それらが高い相関係数を持つことは予想外ではありません。「ナンセンス相関」と「共積分」で検索してください。)
たとえば、Googleの相関では、犬と耳のピアスの相関係数は0.84です。
古い分析については、Yuleの1926年の問題の調査を参照してください。
x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
トップレベルでは、コルモゴロフは独立性を統計の重要な仮定として特定しました-iid仮定なしでは、統計の多くの重要な結果は、時系列またはより一般的な分析タスクに適用されるかどうかに関係ありません。
ほとんどの実世界の離散時間信号の連続したサンプルまたは近くのサンプルは独立していないため、プロセスを決定論的モデルと確率的ノイズ成分に分解するように注意する必要があります。それでも、古典的な確率計算の独立した増分の仮定には問題があります:1997年のイーコンノーベルと、1998年の校長の間で受賞者を数えたLTCMの内破を思い出してください(公平ではあるが、ファンドのマネージャーMerryは、メソッド)。
時系列の自己相関を考慮しない手法/モデル(OLSなど)を使用しているため、モデルの結果が非常に確実であること。
私には良いグラフはありませんが、「Rの導入時系列」という本(2009、Cowpertwait、et al)は、合理的な直観的な説明を提供します。時間内に一緒にクラスター化されます。これにより、平均の推定効率が低下します。つまり、自己相関がゼロの場合と同じ精度で平均を推定するには、より多くのデータが必要です。実際には、思っているよりも少ないデータしか持っていません。
OLSプロセス(およびユーザー)は、自己相関がないと想定しているため、平均の推定値は(データの量に対して)実際よりも正確であると想定しています。したがって、結果よりも自信があるはずです。
(これは、負の自己相関に対しては別の方法で機能します。平均の推定値は、そうでない場合よりも実際には効率的です。負の相関よりもシリーズ。)
ワンタイムパルスに加えて、レベルシフト、季節的パルス、現地時間の傾向の影響。経時的なパラメータの変更は、調査/モデル化するために重要です。経時的な誤差の分散の可能な変化を調査する必要があります。Xの同時かつ時間差のある値がYに与える影響を判断する方法。Xの将来の値がYの現在の値に影響を与える可能性があるかどうかを識別する方法。月の特定の日を見つける方法が影響します。時間ごとのデータが日ごとの値の影響を受ける混合周波数の問題をモデル化する方法は?
naughtは、レベルシフトとパルスに関するより具体的な情報/例を提供するように頼みました。そのために、もう少し議論します。非定常性を示唆するACFを示すシリーズは、事実上「症状」をもたらしています。推奨される解決策の1つは、データを「差分」することです。見落とされがちな救済策は、データを「軽meanする」ことです。シリーズに平均(つまりインターセプト)の「メジャー」レベルシフトがある場合、このシリーズ全体のacfは簡単に誤って解釈され、差異を示唆する可能性があります。レベルシフトを示すシリーズの例を示しますが、2つの差を強調(拡大)した場合、合計シリーズのacfが(誤って!)差の必要性を示唆することを意味します。未処理のパルス/レベルシフト/季節的パルス/ローカルタイムトレンドは、モデル構造の重要性をわかりにくくするエラーの分散を増大させ、パラメーター推定値の欠陥や予測不良の原因となります。次に例を示します。Thは、27の毎月の値のリストです。これがグラフです。4つのパルスと1つのレベルシフトがあり、トレンドはありません!および。このモデルの残差は、ホワイトノイズプロセスを示唆しています。いくつかの(ほとんどの!)商用および無料の予測パッケージでも、季節性因子が追加されたトレンドモデルを仮定した結果、次のような愚かさをもたらします。最後にマーク・トウェインを言い換えます。「ナンセンスがあり、ナンセンスがありますが、それらの中で最も非感覚的なナンセンスは統計的なナンセンスです!」より合理的に比べて。お役に立てれば !
長期にわたる線形成長としてのトレンドの定義。
一部の傾向は何らかの形で線形になりますが(Appleの株価を参照)、時系列グラフは線形回帰を見つけることができる折れ線グラフのように見えますが、ほとんどの傾向は線形ではありません。
特定の時点で何かが発生して測定動作が変更された場合の変更など、ステップの変更があります(「橋が崩壊し、それ以降は車は通過しません」)。
もう1つの人気の傾向は「バズ」です。指数関数的な成長とその後の同様の急激な減少(「当社のマーケティングキャンペーンは大成功でしたが、効果は数週間後に消えました」)。
時系列データのトレンドを検出するためには、時系列トレンドの適切なモデル(ロジスティック回帰など)を知ることが重要です。
すでに言及されているいくつかの素晴らしい点に加えて、私は追加します:
これらの問題は、関連する統計的手法ではなく、研究の設計、つまりどのデータを含めるか、結果を評価する方法に関連しています。
ポイント1の扱いにくい部分は、将来について結論を出すために十分な期間のデータを確認したことを確認することです。時系列に関する最初の講義で、教授はボード上に長い洞曲線を描き、短いウィンドウで観察すると長いサイクルが線形トレンドのように見えることを指摘しました(非常に単純ですが、レッスンは私に固執しました)。
ポイント2.は、モデルのエラーに実際的な意味がある場合に特に関連します。他の分野の中でも、金融業界では広く使用されていますが、過去の期間の予測エラーを評価することは、データが許すすべての時系列モデルにとって非常に理にかなっていると思います。
ポイント3.は、過去のデータのどの部分が未来を代表するかという主題に再び触れます。これは大量の文献を含む複雑なトピックです-私の個人的なお気に入りを例に挙げます:ズッキーニとマクドナルド。
サンプリングされた時系列のエイリアスを避けます。定期的にサンプリングされる時系列データを分析する場合、サンプリングレートは、サンプリングするデータの最高周波数成分の2倍の周波数でなければなりません。これはナイキストのサンプリング理論であり、デジタルオーディオに適用されますが、定期的な間隔でサンプリングされた時系列にも適用されます。エイリアシングを回避する方法は、ナイキストレート(サンプリングレートの半分)を超えるすべての周波数を除外することです。たとえば、デジタルオーディオの場合、48 kHzのサンプルレートには、24 kHz未満のカットオフを持つローパスフィルターが必要です。
エイリアシングの効果は、ストロボレートがホイールの回転速度に近いストロボ効果により、ホイールが後方に回転しているように見える場合に見られます。観察される遅い速度は、実際の回転速度のエイリアスです。