Rで時系列の滑らかさを測定する方法は?


25

Rの時系列の滑らかさを測定する良い方法はありますか?例えば、

-1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0

よりもはるかに滑らかです

-1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0

それらは同じ平均と標準偏差を持ちますが。時系列にわたってスムーズなスコアを提供する機能があれば、それはクールです。


4
平滑性は、確率過程の理論において明確に定義された意味を持っています。(「バリオグラムは、表面の粗さの統計に基づいた定量的な記述です」:goldensoftware.com/variogramTutorial.pdf、16ページ。)滑らかさは、バリオグラムのゼロ距離への外挿に関連しています。(連続した差異のSDとラグ1の自己相関は、これの迅速でダーティなバージョンです)。本質的な情報は、0でのテイラー級数の係数に含まれています。たとえば、非ゼロの定数は実際には粗いです。0の高次ゼロは、非常に滑らかなシリーズを示します。
whuber

ハースト指数についても聞いたことがあります。
テイラー

なんて面白いのか、私はこれとまったく同じことを自分で考えていました。投稿していただきありがとうございます!
クリスビーリー

@whuber:それは答えであり、コメントではありません。
naught101

@ naught101私は謙虚に異なることを請います:私のコメントは関連する状況に適しており、空間データをモデル化するために使用される理論的なプロセスのみを参照しており、実際にその滑らかさを推定する方法を参照していません。私は多次元で精通しているが、特定ではない(時間の矢印の方向による)1つの次元ではおなじみの、その推定に対する技術があります。従来型または優れたアプローチです。
whuber

回答:


22

差の標準偏差は、大まかな滑らかさの推定値を提供します。

x <- c(-1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0)
y <- c(-1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0)
sd(diff(x))
sd(diff(y))

更新: Cyanが指摘しているように、これはスケールに依存する尺度を提供します。同様のスケールに依存しない尺度では、標準偏差ではなく変動係数を使用します。

sd(diff(x))/abs(mean(diff(x)))
sd(diff(y))/abs(mean(diff(y)))

どちらの場合も、小さい値はより滑らかな系列に対応します。


1
そのスコアはスケール不変ではなく、アプリケーションによって意味が異なる場合があります。(そして、私自身の提案スケール不変であるため、同じ懸念が適用されます。)また、上記のスコアでは、値が小さいほど時系列が滑らかであることを指摘する価値があります。
シアン

1
@Cyanに感謝します。スケールに依存しないバージョンも追加しました。
ロブハインドマン

2
diff分母に含めるつもりですか?値は代数的に減少しますが、(x[n]-x[1])/(n-1)これはトレンドの(粗い)尺度であり、多くの場合、非常にゼロに近いはずです。その結果、不安定でひどく意味のない統計になります。私は...それによって困惑んだけど、多分私は何かを明らかに見下ろすよ
whuber

1
以前diffは、定常性の仮定を避けていました。分母で定義されているabs(mean(x))場合、スケーリングxは静止しているときにのみ機能します。差分を取ることは、差分定常プロセスでも機能することを意味します。もちろん、差分はx静止しないかもしれませんし、それでも問題があります。このため、時系列のスケーリングは注意が必要です。しかし、私は安定性についてあなたのポイントを取る。もっと良いことをするには、かなり高度なものが必要になると思います---たとえばノンパラメトリックなスムーザーを使用します。
ロブハインドマン

1
私は一定の傾向は完全に滑らかであるべきと思っているだろう、そう答えは0でなければなりません
ロブHyndman

13

ラグ-1の自己相関がスコアとして機能し、あまりにも合理的に簡単な統計的な解釈を持っています。

cor(x[-length(x)],x[-1])

スコアの解釈:

  • 1に近いスコアは、滑らかに変化するシリーズを意味します
  • スコアが0に近いことは、データポイントと次のポイントとの間に全体的な線形関係がないことを意味します(つまり、plot(x [-length(x)]、x [-1])は見かけの線形性の散布図を与えません)
  • -1に近いスコアは、シリーズが特定の方法でギザギザになっていることを示しています。1つのポイントが平均を上回る場合、次のポイントは平均をほぼ同じ量だけ下回る可能性があります。

0

タイムステップ番号との相関関係を確認するだけです。これは、時系列で単純な線形回帰のR²を取得することと同等です。ただし、これらは2つの非常に異なる時系列であるため、比較としてどの程度うまく機能するかはわかりません。


4
これは、時間に対する直線性の尺度ですが、滑らかさの尺度ではありません。
ロブハインドマン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.