非周期的時系列の傾向を分析する方法


12

次の非定期的な時系列があるとします。明らかに傾向は減少しているので、(p値を使用した)いくつかのテストでそれを証明したいと思います値間の時間的(シリアル)自己相関が強いため、古典的な線形回帰を使用できません。

library(forecast)
my.ts <- ts(c(10,11,11.5,10,10.1,9,11,10,8,9,9,
               6,5,5,4,3,3,2,1,2,4,4,2,1,1,0.5,1),
            start = 1, end = 27,frequency = 1)
plot(my.ts, col = "black", type = "p",
     pch = 20, cex = 1.2, ylim = c(0,13))
# line of moving averages 
lines(ma(my.ts,3),col="red", lty = 2, lwd = 2)

ここに画像の説明を入力してください

私のオプションは何ですか?


4
シリーズが非定期的であるという事実(frequency=1)は、ここではほとんど関係がないと思います。より適切な問題は、モデルの関数形式を指定するかどうかです。
Richard Hardy

1
データが何であるかについてのさらに詳しい情報は、おそらくモデリングに役立つでしょう。
bdeonovic 2016

データは、貯水池で毎年数えられる特定の種の個体数(千単位)です。
LadislavNaďo2016

1
@LadislavNadoは、提供されている例のように短いシリーズですか?もしそうなら、それはサンプルサイズのために採用できる方法の数を減らすのでお願いします。
Tim

1
減少する側面の自明性は非常に規模に依存します。これは、私には考慮に入れられるべきです
Laurent Duval

回答:


7

おっしゃったように、サンプルデータの傾向は明白です。この事実を仮説検定で正当化したい場合は、線形回帰(明らかなパラメトリックな選択)を使用する以外に、ノンパラメトリックなMann-Kendall検定を単調傾向に使用できます。テストは、

対象となる変数の経時的な単調増加または減少傾向があるかどうかを評価します。単調な上昇(下降)傾向とは、変数が時間の経過とともに一貫して増加(減少)することを意味しますが、傾向は線形である場合とそうでない場合があります。(http://vsp.pnnl.gov/help/Vsample/Design_Trend_Mann_Kendall.htm

さらに、ギルバート(1987)が指摘したように、テスト

欠損値が許可され、データが特定の分布に準拠する必要がないため、特に有用です。

検定統計量は、すべてのn n 1 / 2の可能なペアの間の負と正の差です。つまり、xjxin(n1)/2

S=i=1n1j=i+1nsgn(xjxi)

sgn()S τ1+1τ

τ=Sn(n1)/2

pn10pSS

var(S)=118[n(n1)(2n+5)p=1gtp(tp1)(2tp+5)]

ZMK

ZMK={S1var(S)if S>00if S=0S+1var(S)if S<0

ZMK

  • ZMKZ1α
  • ZMKZ1α
  • |ZMK|Z1α/2

ではこのスレッドあなたは、このテストを実行するRコードを見つけることができます。

SpSpSdataSpermutationSdataSpermutation


ギルバート、RO(1987)。環境汚染モニタリングのための統計的方法。ワイリー、ニューヨーク。

Önöz、B.および&Bayazit、M.(2003)。傾向検出のための統計的検定の威力。 トルコ環境工学ジャーナル、27(4)、247-251。


1

「値間の時間的(シリアル)自己相関が強いため、古典的な線形回帰を使用できません。」実際には機会です。私は27の値をとり、可能なモデルを(オプションで)自動的に決定できるソフトウェア(私が開発を手助けしたもの)のAUTOBOXを使用しました。これが実際/適合と予測のグラフここに画像の説明を入力してくださいです。残差のACFはここにあり、残差プロットはここにありますここに画像の説明を入力してください。モデルはここここに画像の説明を入力してくださいとここここに画像の説明を入力してくださいとここですここに画像の説明を入力してください。2つの係数は、推定「トレンド」または「ドリフト」でデータを適切に記述します。つまり、期間ごとの差は-.596です。これは、モデルがカウント数1、2、... 27を予測変数として使用した傾向の一種であることに注意してください。データがそのような傾向を示唆している場合、ソフトウェアはそれがより適切であることを発見したでしょう。私は、これらの2種類の傾向を完全に詳細化/対照した私の以前の投稿を探してみます。ここでは、確率的傾向モデルの特定初期傾向または外れ値の検出

ここに画像の説明を入力してください


2
オートボックスの予測は、1996、1999、2000、2009年の最近の傾向が崩れているすべての興味深いポイントを見逃しています。ほぼ1年の位相シフトのようなものです。その点でそれは何も説明しません。
Aksakal

高度の多項式をデータに当てはめるという以前の推奨事項(ほっぺたの舌)は、あなたが要求したことを実行するだけです。しかし、私たちはモデリングについてフィッティングについてではありません。残差プロットは、何らかの外部/不明な要因によるエラープロセスを適切に説明しているようです。すべてのモデルは間違っていますが、一部は有用です。これは便利なモデルだと思いますが、もっと上手くできると思ったら、結果を投稿してください。過去は省略された変数のプロキシにすぎないため、ARIMAモデルからの説明はありません。
IrishStat 2016

2
この場合、統計とはあまり関係がないようです。それはまったく興味深い統計の質問ではありません。明白な傾向があり、OPは現象の物理学を研究する必要があります。Autoboxのようなこれらのモデルフィットは単にOPを間違った方向に導いていると思います。彼らは、すでに明らかになっている以上の価値のあるものを明らかにしていません。
Aksakal 2016

問題は、分析が人間の目を置き換えることができるかどうかです...分析は、目がサポートするものを明らかにします。これが、私たちが統計を実践して、すぐに目に見える以上のものを実行できる理由です。AUTOBOXソリューションは、OPを正しい方向、つまり下に導きます。あなたのコメントは私の意見ではまったく生産的ではありませんが、以前に(丁寧に)尋ねたように、統計に基づいた実行可能な代替案を提供してください。私の意見では、これは非常に興味深い統計的な質問であり、回答が必要です。できれば1つ提供してください。
IrishStat 2016

1

あなたは使用することができますスピアマンの順位相関係数を使用するデータが単調である程度を決定すること。単調増加データの正の値と単調減少データの負の値(-1から+1の間)を返します。私は確信してほとんどのソフトウェアパッケージは、相関係数を計算するときのp値は、あなたのために行わなければならないのですが、上記のリンクに続き、有意性検定を扱うセクションでは、もあります(:例えばMATLABで[RHO,PVAL] = corr(...); Rに:cor.test(x,...)


0

シリアル自己相関がないため(少なくとも指定したサンプルでは)、OLSを使用できます。ダービン・ワトソン検定の統計量1.966(≈2)に注意してください。

したがって、x1の有意に負の係数推定は、次のように言う必要があるすべてです

[特定の種]の観測数は、年間約1,000ずつ減少しています。

または

[特定の種]の観測数は、年間628〜1,408減少しています(95%の信頼度)。

これは、種をカウントする方法論が適切にカバーされており、サンプル内で長年にわたって一貫していることを前提としています。

ここに画像の説明を入力してください

これは次のPythonコードで作成されました(申し訳ありませんが、Rはありません):

import numpy as np
import statsmodels.api as sm

y = [10,12,10,11,8,9,6,4,2,4]
x = np.arange(len(y))
x = sm.add_constant(x)

mod = sm.OLS(y, x)
result = mod.fit()
print(result.summary())

0

データのソースを知ることは非常に役立ちます。また、値がmy.ts負になる可能性があるかどうかの情報も役立ちます。

ただし、一定の線形傾向を見るのではなく、プロットをざっと見てみると、時系列が定常的ではなく、したがって統合されていることをお勧めします。例として、株価も統合されますが、株価はもう戻りません(0付近で変動します)。

この仮説はAugmented Dickey Fuller Testを使用してテストすることもできます。

require(tseries)
adf.test(my.ts)

Augmented Dickey-Fuller Test
Dickey-Fuller = -2.9557, Lag order = 2, p-value = 0.7727
alternative hypothesis: stationary

p値が0.05より低くない場合、プロセスが定常的であるという証拠はありません。

データを定常状態にするには、それを区別する必要があります。

diff.ts <- diff(my.ts)
plot(diff.ts)

ここに画像の説明を入力してください

これでデータはトレンドを示さなくなり、見つけられるのは次数2の自己回帰項のみです(を使用acf(diff.ts))。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.