巨大な尖度?


10

株価指数の日次リターンの説明統計を行っています。即ち、もし及びP 2は、次いで、それぞれ、1日目と2日目に指数のレベルであるL O のG EP 2P1P2は、私が使用しているリターンです(文献では完全に標準です)。loge(P2P1)

したがって、これらのいくつかでは尖度が巨大です。私は約15年分の日次データを見ている(つまり、15時系列観測)26015

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

私の質問は:問題はありますか?

このデータに対して広範囲の時系列分析を行いたい-OLSと分位数回帰分析、さらにはGranger因果関係。

私の応答(依存)と予測子(リグレッサ)の両方に、この巨大な尖度の特性があります。ですから、回帰方程式のどちら側にもこれらのリターンプロセスがあります。非正規性が障害に波及すると、標準誤差が高分散になりますか?

(多分、歪度の強いブートストラップが必要ですか?)


3
1)これをquant.stackexchange.comサイトに移動することができます。2)問題とはどういう意味ですか?異常値が瞬間に与える影響に関する文献はすべてあります。多くの場合、それは科学というより芸術です。
ジョン

2
"何か問題ある?" あいまいすぎます。これらのデータをどのように処理しますか?あなたの巨大な尖度は巨大な左スキューに関連付けられています。log(p2 / p1)= log p2-log p1なので、巨大な左スキューは、通常の場合と比較して、これが非常に低い、つまりp1がp2よりはるかに高い場合が数回あったことを示しています。倒産する会社かそのようなものかもしれません。
ピーターフロム-モニカの回復

これについて申し訳ありません-私は私のOPを修正しました。

1
通常、対数戻りはゆがんでいて、裾が重い。このため、この動作をキャプチャできる柔軟なディストリビューションを検討することをお勧めします。例12を参照してください。

Lモーメントに基づいた尖度の測定値を確認する必要があります
kjetil b halvorsen

回答:


2

見ていヘビーテールランバートWはFをxはランバートWを歪めF Xのディストリビューションを試し(免責事項:私は著者だが)。Rでは、それらはLambertWパッケージに実装されてます。

関連記事:

yX

以下は、株式ファンドの収益に適用されるランバートW xガウス推定の例です。

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

時系列は株式ファンドをプロットします

リターンの要約メトリックは、OPの投稿と似ています(極端ではありません)。

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

ほとんどのシリーズは、非通常の特性(強い歪度および/または大きな尖度)を明確に示しています。モーメント推定法(IGMM)を使用して、ヘビーテールランベルトW xガウス分布(=チューキーのh)を使用して各系列をガウス化してみましょう。

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

ガウス化されたリターンの時系列プロット

時系列プロットは、テールがはるかに少なく、時間に対する変動が安定しています(ただし一定ではありません)。ガウス化された時系列でメトリックを再度計算すると、次の結果が得られます。

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMM3Gaussianize()scale()

単純な2変量回帰

rEASTEU,trINDIA,t

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

scatterplot INDIAおよびEASTEU

元のシリーズの左側の散布図は、強い外れ値が同じ日に発生したのではなく、インドとヨーロッパでは異なる時間に発生したことを示しています。それ以外は、中央のデータクラウドが相関関係または負/正の依存関係をサポートしていないかどうかは明確ではありません。外れ値は分散と相関推定に強く影響するため、重いテールを削除して依存関係を確認することは価値があります(右の散布図)。ここでは、パターンがはるかに明確になり、インドと東ヨーロッパの市場の間の肯定的な関係が明らかになります。

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

グレンジャー因果関係

VAR(5)p=5

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

ただし、ガウス化されたデータの場合、答えは異なります。ここでは、テストは「INDIAがGrangerを引き起こすEASTEUを引き起こさない」というH0を拒否できませんが、「EASTEUがINDIAをGrangerを引き起こさない」ことを拒否します。したがって、ガウス化されたデータは、ヨーロッパの市場が翌日のインドの市場を牽引するという仮説を裏付けています。

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

VAR(5)


1

必要なのは、データによりよく適合する確率分布モデルです。時々、定義された瞬間がない場合があります。そのような分布の1つがコーシー分布です。コーシー分布は期待値として中央値を持っていますが、安定した平均値はなく、安定した高いモーメントもありません。つまり、データを収集すると、実際の測定値は外れ値のように見えますが、実際の測定値です。たとえば、平均ゼロの2つの正規分布FとGがあり、1つがF / Gを除算する場合、結果には最初のモーメントがなく、コーシー分布になります。したがって、データを楽しく収集し、5、3、9、6、2、4のように見えるようになり、安定したように見える平均を計算すると、突然-32739876の値が得られ、平均値が無意味になります。ただし、中央値は4、安定しています。そのようなものは、ロングテールの分布です。

編集:2自由度のスチューデントのt分布を試すことができます。その分布は正規分布よりも裾が長く、歪度と尖度は不安定です(Sic、存在しません)が、平均と分散は定義されています。つまり、安定しています。

次の編集:1つの可能性は、Theil回帰を使用することかもしれません。とにかく、それは考えです。なぜなら、テイルは尾がどのように見えてもうまく機能するからです。TheilはMLR(中央値勾配を使用した多重線形回帰)で実行できます。Theilをヒストグラムデータのフィッティングに使用したことはありません。しかし、信頼区間を確立するためにジャックナイフバリアントを使用してTheilを実行しました。これを行うことの利点は、Theilは分布の形状が何であるかを気にしないことであり、通常、OLSは問題のある独立した軸分散がある場合に使用されるため、OLSを使用する場合よりも偏りが少なくなります。Theilが完全に煮詰められているわけではなく、中央分離帯の傾斜です。回答の意味も異なります。これにより、従属変数と独立変数の間でより良い一致が見られ、OLSは従属変数の最小エラー予測子を見つけます。


2
素晴らしい情報、ありがとう。さらに読むための(かなりコンパクトな)リソースがいくつかありますか?ロングテールに関するまったく別の問題がありますが、私のデータはさまざまなシナリオの混合分布にすぎないと思います。
flaschenpost

私はMathematicaを使用しており、その言語では分布をフィッティングすることや分布を区分的に定義することは難しくありません。たとえば、これを見てください。一般に、確率変数は畳み込みによって追加されますが、実際には密度関数の畳み込みは困難です。一部の人々は、混合された変数の密度関数を区分的に定義するだけです。たとえば、地震の頻度をモデル化するために、最大値の後に打ち切られた重いガンマ分布に軽い指数テールを追加します。@flaschenpost
Carl
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.