AR(1)によるランダムウォーク推定


10

AR(1)でランダムウォークを推定すると、係数は1に非常に近くなりますが、常に小さくなります。

係数が1以下であることの数学的な理由は何ですか?


Matlabツールボックスとarimaのスクリプトも試してみました(係数は[-10,10]に制限されており、結果は同じです)。私は単純なOLSで試してみましたが、結果は同じです。
Marco、

推定値は下向きにバイアスされているため、DickeyとFullerの論文を読む必要があります。
Marco

回答:


12

OLSによってモデル を推定し

xt=ρxt1+ut,E(ut{xt1,xt2,...})=0,x0=0

サイズTのサンプルの場合、推定量は次のとおりです。

ρ^=t=1Txtxt1t=1Txt12=ρ+t=1Tutxt1t=1Txt12

真のデータ生成メカニズムが純粋なランダムウォークである場合、、およびρ=1

xt=xt1+utxt=i=1tui

OLS推定量のサンプリング分布、または同等に、のサンプリング分布は 、ゼロを中心に対称ではなく、取得された値の%(つまり、確率質量)は負であるため、多くの場合、を取得します。これは相対頻度分布ですρ^168ρ^<1

ここに画像の説明を入力してください

Mean:0.0017773Median:0.00085984Minimum: 0.042875Maximum: 0.0052173Standard deviation: 0.0031625Skewness: 2.2568Ex. kurtosis: 8.3017

これは、「Dickey-Fuller」分布と呼ばれることもあります。これは、同じ名前のUnit-Rootテストを実行するために使用される重要な値のベースであるためです。

サンプリング分布の形状に直感与えようとする試みを見た覚えはありません。確率変数の標本分布を見ています

ρ^1=(t=1Tutxt1)(1t=1Txt12)

が標準正規の場合、の最初のコンポーネントは、独立していない製品正規分布(または「通常製品」)の合計です。の2番目の要素は、独立していないガンマ分布の合計の逆数です(実際には、1自由度のスケーリングされたカイ2乗)。 utρ^1ρ^1

どちらも分析結果がないので、シミュレーションしましょう(サンプルサイズ)。 T=5

独立した製品法線を合計すると、ゼロを中心とした対称性を維持する分布が得られます。例えば:

ここに画像の説明を入力してください

しかし、私たちの場合のように、独立していない製品法線を合計すると、

ここに画像の説明を入力してください

これは右側に偏っていますが、負の値に割り当てられる確率が高くなります。また、サンプルサイズを増やして相関要素を合計に追加すると、質量はさらに左側に移動するように見えます。

非独立ガンマの合計の逆数は、正のスキューを持つ非負の確率変数です。

次に、これら2つの確率変数の積をとると、最初の負の直交座標における比較的大きな確率質量が、2番目に発生する正のみの値(および正の歪度)と組み合わされて、より大きな負の値のダッシュ)、分布を特徴付ける負のスキューを作成します。 ρ^1


うわー、素晴らしい分析!ここで違反している標準のOLS仮定のどれを示すことができますか?
Richard Hardy

@RichardHardyありがとう。後で戻ってあなたのコメントに返信します。
Alecos Papadopoulos

私はまだOLSの仮定に興味があります...よろしくお願いします!
Richard Hardy

ここでは少し混乱しています。方程式を推定しようとするランダムウォークの場合、共積分法により、は超レートで収束する必要があります。シミュレーションも矛盾を示していますか?X T + 1 - X TXt+1=αXt+ϵXt+1Xt
Cagdas Ozgenc

@CagdasOzgencそのようなことはありません。整合性は漸近的なプロパティです。ここで、有限のサンプルで "より頻繁に" 取得する以外に理由を説明します(推定器の分布確率が高いため)負の数の質量)。 ρ -1ρ^<1ρ^1
Alecos Papadopoulos

6

これは実際の答えではありませんが、コメントには長すぎるので、とにかく投稿します。

サンプルサイズ100(「R」を使用)の場合、100のうち2倍の係数を取得できました。

N=100                   # number of trials
T=100                   # length of time series
coef=c()
for(i in 1:N){
 set.seed(i)
 x=rnorm(T)             # generate T realizations of a standard normal variable
 y=cumsum(x)            # cumulative sum of x produces a random walk y
 lm1=lm(y[-1]~y[-T])    # regress y on its own first lag, with intercept
 coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1

実現84と95の係数は1を超えるため、常に 1を下回るとは限りません。ただし、その傾向は明らかに下向きにバイアスされた推定値を持つ傾向があります。疑問が残るのはなぜですか?

編集:上記の回帰には、モデルに属していないように見える切片項が含まれていました。切片が削除されると、1を超える多くの推定値(10000のうち3158)が得られますが、それでも明らかにすべてのケースの50%未満です。

N=10000                 # number of trials
T=100                   # length of time series
coef=c()
for(i in 1:N){
 set.seed(i)
 x=rnorm(T)             # generate T realizations of a standard normal variable
 y=cumsum(x)            # cumulative sum of x produces a random walk y
 lm1=lm(y[-1]~-1+y[-T]) # regress y on its own first lag, without intercept
 coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1

正確には、「常に」マイナーではなく、大多数のケースです。それは明らかに偽の結果です。なぜその理由?
Marco

2
係数は、OLSによってと間の相関としてほぼ推定されます。x t 1xtxt1
西安
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.