ラグと時系列のある多重線形回帰の「機械的な」違いは何ですか?


13

私は現在、データ工学の修士号を取得するために勉強しているビジネスと経済学を卒業しています。線形回帰(LR)を研究してから、時系列分析(TS)を研究しているときに、疑問が浮かびました。多重線形回帰を使用し、それにラグ変数を追加するのではなく、時系列(ARIMA)などのまったく新しいメソッドを作成する理由(ラグの順序はACFとPACFを使用して決定)?そこで、先生は私がこの問題について少しエッセイを書くことを提案しました。私は手ぶらで助けを求めに来ませんでしたので、私はこのトピックに関する研究を行いました。

LRを使用する場合、ガウスマルコフの仮定に違反すると、OLS回帰は正しくないこと、そしてこれは時系列データ(自己相関など)を使用するときに発生することを既に知っていました。(これに関する別の質問、GMの仮定の1つは、独立変数を正規分布させるべきか、それとも独立変数の条件付き従属変数だけかということです。)

また、ここで提案している分散ラグ回帰を使用し、OLSを使用してパラメーターを推定すると、変数間の多重共線性が(明らかに)発生する可能性があるため、推定が間違っていることもわかっています。

TSとLRについて同様のポストここで、@IrishStatは言いました:

...回帰モデルは、動的回帰モデルまたはXARMAXモデルとも呼ばれる伝達関数モデルの特定のケースです。際立ったポイントは、時系列でのモデルの識別、つまり、適切な違い、Xの適切なラグ、適切なARIMA構造、パルスなどの不特定の決定論的構造の適切な識別、レベルシフト、ローカル時間傾向、季節的パルス、および組み込みです。パラメータの変化またはエラー分散を考慮する必要があります。

(私はBox JenkinsとLRについてのAutoboxの彼の論文も読んでいます。)しかし、これでも私の疑問は解決しません(または、少なくとも私にとってRLとTSの異なるメカニズムを明確にしません)。

遅れた変数でもOLS問題が発生し、効率的でも正確でもないことは明らかですが、最尤法を使用する場合、これらの問題は持続しますか?ARIMAは最尤法で推定されることを読んだので、遅れのあるLRがOLSではなくMLで推定される場合、「正しい」係数が得られます(順序のMAのように、遅延誤差項も含めると仮定します) q)。

要するに、問題はOLSですか?MLを適用して問題は解決しましたか?


4
ジョン・メイナード・ケインズとの不気味な類似点。
ニックコックス

こんにちは@NickCox、はい、彼は私のお気に入りのエコノミストです。彼は素晴らしい男であり、多くの点で非常に才能があったと思います...私の質問の助けですか?私が理解しようとしているのは、遅延モデルがOLS推定で機能しない理由と、最大尤度推定で正しく推定されるかどうかです。最良のモデルは伝達関数であることを理解しており、現在それを研究しています。しかし、OLSについての理論的な疑問はまだ残っています。ラグが原因で自己相関が存在しなかった場合(マルチコイルも存在しないと想定)、動作しますか?または、まだ存在し、根底にあるもの
ミゲルM.

@NickCox ... OLSが機能せず、このメソッドに適合できないガウスの仮定の効果/違反?お分かりのように、私はこれで少し迷っています。答えるのが長すぎる場合は、私も感謝する啓発的な講義を提供していただければ幸いです
Miguel M.

1
メカニクスの観点から、ユーザーのARMAモデルが提案した(適切に差分した)X変数が非定常性を反映していることを提案させてください。提案されたラグ構造を生成します(理解)。その後、このラグ構造を適切に差異化された元のシリーズに適用して、未指定/バックグラウンドシリーズについての提案を生成できます(仮のエラープロセス)。次に、このエラープロセスを調査して、適切なARMAを生成できます。
IrishStat

@IrishStatだからあなたが言ったことを言い換えさせてください。従属変数Ytと独立変数Xtを用意し、両方に定常性ができるまでYtとXtの両方を差してから、相互相関関数を適用してラグ構造を見つけます。その後、YtをXtに回帰し、エラー項を調べます。エラー項にARMA構造が見つかった場合、ホワイトノイズが発生するまでモデルに適用しますか?しかし、私の質問はまだです、その最後のモデルはOLSを介して適合していますか?そうでない場合、なぜそうではなく、どのような方法を使用しますか?
ミゲルM.

回答:


8

多重線形回帰を使用し、それにラグ変数を追加するのではなく、時系列(ARIMA)などのまったく新しいメソッドを作成する理由(ラグの順序はACFとPACFを使用して決定)?

即時のポイントの1つは、線形回帰は観測された変数でのみ機能するのに対し、ARIMAは移動平均部分に観測されていない変数を組み込むことです。したがって、ARIMAはある意味でより柔軟性があり、より一般的です。ARモデルは線形回帰モデルと見なすことができ、その係数はOLSを使用して推定できます。β O L S = X ' X - 1 X ' Y Xはれる従属変数のラグから成る観察。一方、MAまたはARMAモデルはOLSフレームワークに適合しません。これは、変数の一部、つまり遅延誤差項が観察されないためです。β^OLS=(XX)1XyX、したがってOLS推定器は実行不可能です。

GMの前提の1つは、独立変数を正規分布させる必要があるということですか?または独立変数の条件付きの従属変数だけですか?

正規性の仮定は、独立変数ではなくモデルエラーに対して呼び出される場合があります。ただし、OLS推定器の一貫性と効率性、およびガウス-マルコフの定理が成立するためには、正規性は必要ありません。ガウス・マルコフの定理に関するウィキペディアの記事は、「エラーは正常である必要はない」と明示的に述べています。

変数間の多重共線性が(明らかに)発生する可能性があるため、推定が間違っています。

高度な多重共線性は、OLS推定量の分散が大きくなることを意味します。ただし、多重共線性が完全でない限り、OLS推定量は青のままです。したがって、あなたの声明は正しく見えません。

遅れた変数でもOLS問題が発生し、効率的でも正確でもないことは明らかですが、最尤法を使用する場合、これらの問題は持続しますか?

ARモデルは、OLSとMLの両方を使用して推定できます。これらの方法はどちらも一貫した推定量を提供します。MAおよびARMAモデルはOLSで推定できないため、MLが主な選択です。繰り返しますが、それは一貫しています。もう1つの興味深い特性は効率性であり、ここでは完全にはわかりません(ただし、質問はかなり標準的なため、情報はどこかで入手できるはずです)。「正しさ」についてコメントしてみますが、それがどういう意味かわかりません。


こんにちは、ハーディさん、答えてくれてありがとう。観測値と非観測値について、要約するだけです。ARIMAおよび時系列(より具体的にはXARIMAX)では、予測エラーを使用するために「動的」アプローチを採用し、線形回帰ではそれらを使用しませんが、それでも使用できます。ここで問題を理解していません。または@IrishStatが言っているように、唯一の違いは識別とモデル修正戦略への道ですか?
ミゲルM.

また、モデルに遅延エラーを含める場合、推定については、OLSは(再び)正しいのでしょうか?多重共線性に関しては、推定には大きな分散があるため、推定係数が正しくない可能性があることを意味しました。OLSを使用すると、提案された遅延モデルを使用するときにMLと比較して公平で効率的な推定値が得られる場合、正しい方法を意味します。
ミゲルM.

@MiguelM、私は今旅行中です。後で戻ってきます。
リチャードハーディ

1
「線形回帰では使用しませんが、それでも使用できます」:これらの変数は観察されないため、線形回帰フレームワークでは使用できません(答えで述べたように、推定器は実行不可能です); ただし、ARIMAフレームワークでは使用できます。「モデルに遅延エラーを含めた場合、OLSは(再び)正しいか?」に関して、はい、それは正しいはずです。「正しさ」に関して、モデルが正しく指定されており、OLSとMLの両方が実行可能であれば、両方とも正常に動作するはずです。仕様が間違っていると、物事がうまくいかないことがあります。
リチャードハーディ

1
y=β0+β1x+εxy=β0+β1x+εバツ

5

それは素晴らしい質問です。ARIMAモデルと多重線形回帰の本当の違いは、エラー構造にあります。@IrishStatが言っているように、時系列データに合うように、多重線形回帰モデルの独立変数を操作できます。ただし、その後は、正しい係数とテスト結果を取得するために、ARIMAエラーを重回帰モデルに組み込む必要があります。これに関するすばらしい無料の本はhttps://www.otexts.org/fpp/9/1です。ARIMAと多重回帰モデルの組み合わせについて説明するセクションをリンクしました。


1

良い質問です、私は実際に両方のデータサイエンティストとしての私の仕事で構築しています。時系列モデルは簡単に構築でき(Rの予測パッケージを使用すると、5秒以内に1つを構築できます)、回帰モデルと同じか、より正確です。通常、常に時系列を構築してから回帰します。時系列の哲学的な意味合いもあります。何も知らずに予測できる場合、それはどういう意味ですか?

ダーリントンに対する私の見解。1)「回帰は、はるかに柔軟で強力であり、より良いモデルを生成します。この点は、作業全体の多くの点で開発されています。」

いいえ、まったく逆です。回帰モデルは、時系列モデルよりもはるかに多くの仮定を行います。前提条件が少なければ少ないほど、地震に耐える能力(政権交代)が高くなります。さらに、時系列モデルは、突然のシフトにより速く応答します。

2)「少なくとも、他の分野での回帰の使用に精通している人にとっては、回帰はARIMAよりもはるかに簡単に習得できます。」 これは循環推論です。

3)「回帰は、可能な限り結果をもたらすことが本質的に保証される「閉じた」計算アルゴリズムを使用しますが、ARIMAおよび他の多くの方法は、解決に到達しないことが多い反復アルゴリズムを使用します。 「回帰法に問題のないデータについて」

回帰はあなたに答えを与えますが、それは正しい答えですか?線形回帰モデルと機械学習モデルを作成し、それらすべてが同じ結論に達した場合、それはどういう意味ですか?

つまり、要約すると、はい回帰と時系列の両方が同じ質問に答えることができ、技術的には、時系列は技術的には回帰です(ただし、自動回帰)。時系列モデルはそれほど複雑ではないため、回帰モデルよりも堅牢です。専門化について考える場合、TSモデルは予測に特化していますが、回帰は理解に特化しています。それは、あなたが説明したいか予測したいかに要約されます。


1
「時系列モデルはそれほど複雑ではないため、回帰モデルよりも堅牢です」....あなたが言いたいのは、「ARIMAモデルはそれほど複雑ではないため、回帰モデルよりも堅牢である」ということです。ARIMAと回帰を組み込むことは、伝達関数モデルと呼ばれます。これは賢明な選択であり、理解(回帰)と未知/不特定の背景因子(ARIMA)の両方を組み合わせます。
IrishStat

2
@IrishStatこんにちは、Reilly氏、stackexchangeでのいくつかの投稿に対するあなたの答えを読んでいます。Autoboxの多くの論文とPSU時系列コースへのリンクも読んでいますが、まだ読みません。必要に応じて遅延変数と遅延誤差項を使用した線形回帰(OLSを使用)が機能しない理由(またはその場合)
Miguel M.

@IrishStatは機能しないOLSメソッドですか?
ミゲルM.

1
IrishStatはあなたの主張を拡大するために、目標はグレンジャーの因果関係です。たとえば、係数が統計的に有意であっても、予測の精度を向上させる上で必ずしも有意ではない場合があります。私の研究では、回帰モデル(線形、投げ縄など)は物事が実際よりも重要であると言う傾向があり、ランダムフォレストはそれらをダウングレードして真のレバーを特定する傾向があることを発見しました。また、ランダムフォレストのサンプル精度は線形モデルと同じです。唯一の欠点は、係数が実際に何であるかわからないことです。
隠れマルコフモデル

2
@MiguelM。伝達関数は、おそらくパルス(1回の異常)Iは、主な違いは、識別モデル改訂戦略へのパスであると思うために調整しながら経験的に検出されたレベルシフト/時間トレンド/季節のパルスを含む多項式分布ラグモデルであるため、それは確かに仕事ができます
IrishStat

0

伝達関数と(通常の使用での)多重線形回帰の最も深い違いはその目的にあると考えて、多重回帰は従属変数の主な因果的観測可能な決定要因を見つけるように方向付けられていますが、伝達関数は従属変数に対する影響を予測したいだけです特定の外生変数の変動の変数...要約すると、重回帰は徹底的な説明と予測関数への伝達関数に向けられています...


どちらの方法でも実際に解釈できる係数が得られるため、これは非常に正確だとは思いません。また、伝達関数は因果分析に大きく依存しており、実際には多重線形回帰よりも区別するのに優れています。また、この投稿では、このような2つの方法の機械的/方法論的な違いを求めています。
ミゲルM.
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.