データが重複する時系列回帰

同じ株価指数、信用スプレッド（リスクフリー債と社債の月平均の差）の前年（12か月）の前年同期の株価収益率を回帰する回帰モデルを見ています利回り）、前年比インフレ率、鉱工業生産指数。

このように見えます（ただし、この場合はインド固有のデータを置き換えます）。

SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) +    
b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2)

SP500YOYはSP500インデックスの前年比リターンです。これを計算するために、SP500値の月間平均が計算され、各月の前年比リターンに変換されます（つまり、Jan'10-Jan'11、Feb'10- 2月11日、3月10日〜3月11日、…）。説明変数の側では、SP500YOYの12か月の遅れた値が、時間TのCREDITSPREADおよびINFLATIONおよびINDUSTRIALPRODUCTIONの2期間前に使用されます。INFLATIONASYMMは、インフレが5.0％のしきい値を超えているかどうかのダミーです。括弧内のインデックスは、各変数の時間インデックスを示しています。

これは、標準のOLS線形回帰によって推定されます。このモデルを使用して、SP500のYOYリターンの1、2および3か月先を予測するには、インフレおよび鉱工業生産指数の3、4および5か月先の予測を生成する必要があります。これらの予測は、ARIMAモデルを2つのそれぞれに個別に適合させた後に行われます。1、2、3か月先のCreditSpread予測は、精神的な推定値として投入されています。

このOLS線形回帰が正しい/正しくない、効率的/非効率的、または一般的に有効な統計的実践であるかどうかを知りたい。

私が見る最初の問題は、重複するデータを使用することです。すなわち、株価指数の毎日の値は毎月平均化され、毎月ロールオーバーされる年間リターンの計算に使用されます。これにより、エラー用語が自己相関されます。次のいずれかの行で「修正」を使用する必要があると思います。

ホワイトの不均一分散共分散推定量
Newey＆Westの不均一分散および自己相関整合（HAC）推定量
Hansen＆Hodrickの不均一分散一貫バージョン

このような重複データに標準のOLS線形回帰（補正なし）を適用することは本当に意味がありますか？さらに、SP500YOYを予測するために元のOLS線形回帰で使用する説明変数に3期間先のARIMA予測を使用しますか？私は以前にそのようなフォームを見たことがないので、重複する観測の使用を修正することを除いて、実際にそれを判断することはできません。

regression time-series autocorrelation

— ヴィシャール・ベルサーレ
ソース

クロスポストしないでください。

— ジョシュアウルリッヒ

この主題を扱った記事は次のとおりです。

Britten-Jones and Neuberger、観測の重複による回帰の推定と推定の改善

Harri＆Brorsen、重複データ問題

— R_Coholic
ソース

これらの論文から、これらの修正を実際に適用する方法はあまり明確ではありません。もっと実用的なチュートリアルやチュートリアルはどこかにありますか？

— -rinspy

参照@rinspy quant.stackexchange.com/questions/35216/...をハンセン＆Hodrick上のいくつかのコードのために

— Candamir

これらの記事の情報の要約と、質問に対する解決策の提供方法を教えてください。

— GUNG -復活モニカ