テンポラルデータの適切なクラスタリング手法ですか?


13

活動頻度の一時的なデータがあります。データ内で、類似したアクティビティレベルを持つ異なる期間を示すクラスターを特定したい。理想的には、事前にクラスターの数を指定せずにクラスターを識別したいと思います。

適切なクラスタリング手法とは何ですか?質問に答えるのに十分な情報が含まれていない場合、適切なクラスタリング手法を決定するために提供する必要がある情報は何ですか?

以下は、私が想像している種類のデータ/クラスタリングの実例です。 時を越えたクラスタリング


プロットは私には滑らかになった(補間された)ように見えます。それはおそらく誤解を招く可能性があります。そして、「縦断的」にジオデータに関連付けましたが、どうやらあなたは時系列を見ていますか?
QUITがあります--Anony-Mousse

1
プロットにあまり注意を払ってはいけません、それは単なる例です。私が達成したいのは、時間とともに変化する変数に基づいて、時間の異なるエピソードを識別することです。私の考えでは、縦方向は時間データと同じです。たとえば、en.wikipedia.org
wiki / Longitudinal_study

クラスタリングでは、この用語は主にen.wikipedia.org/wiki/Longitudeのように表示されるため、質問からをクラスター化するが明確ではないためです。たとえば、「サブジェクト」間で同様に動作する時間間隔、または時間の経過とともに同じ進捗を示すサブジェクトをクラスタリングできます。
QUITがあります--Anony-Mousse

1
混乱を避けるために、「縦」を「時間」に変更しました。あなたの言葉を使用して、私は時間の間隔をクラスタリングしたいと思います。しかし、私にとって重要なのは、クラスターが時間的に明確で連続的なエピソードであることです。
-histelheim

「時系列セグメンテーション」または「レジームスイッチングモデル」キーワードを使用した検索が役立つ場合があります。
イブ

回答:


6

私自身の研究から、Gaussian Hidden Markov Modelsが適しているようです:http : //scikit-learn.org/stable/auto_examples/plot_hmm_stock_analysis.html#example-plot-hmm-stock-analysis-py

明確な活動のエピソードを見つけるようです。

ガウスの隠れマルコフモデル


事前に隠された状態がいくつあるかを知る必要はありませんか?それを回避する方法はありますか?
JCWong

@JCWongノンパラメトリックベイジアンバリアント(無限の隠れマルコフモデル)を使用してそれを回避できると思います。
jtobin

しかし、HMMはイベントを一時的にクラスター化またはグループ化するようには見えません(図から見えます)。しかし、質問されているのは、一時的なクラスターを取得する方法ですか?私は一時的なクラスタリングに取り組んでいるので、興味があります。
ラッセルB

3

あなたの問題は私が見ているものと似ているように聞こえますが、この質問は似ていますが、あまり説明されていません。

彼らの回答は、変更検出に関する優れた要約にリンクしています。考えられる解決策については、グーグルで簡単に検索すると、グーグルコードにChange Point Analysisパッケージが見つかりました。Rにはこれを行うためのツールもいくつかあります。このbcpパッケージは非常に強力で、本当に使いやすいです。データが入ったときにその場でそれを行いたい場合は、「ゲノムデータへの適用を伴うオンラインの変化点検出とパラメーター推定」という論文で、非常に洗練されたアプローチが説明されます。strucchangeパッケージもありますが、これは私にはあまりうまくいきませんでした。


1

ウェーブレットは、異なるプロパティを持つ期間を識別するのに役立ちます。ただし、時系列を個別の期間に分割する方法があるかどうかはわかりません。そして、私はまだ始まったばかりであるため、多くの理論が歩き回る必要があるようです。他の提案を読むのを楽しみにしています。

ウェーブレットに関する無料の入門書の章。

ウェーブレットを使用した有意性テスト用のRパッケージ。


1

このページを見ましたか:UCR時系列分類/クラスタリングページ

練習用のデータセットと公開結果-独自の実装のパフォーマンスを比較します(よく知られた機械学習技術の既知のパフォーマンスに関するリンクもあります)。さらに、このページでは、問題、データ、またはニーズに合った最適なアプローチの研究をさらに進めることができる重要な論文を引用しています。

また、sequitur http:// sequitur.infoを適用することにより、(可能性として)それを行う別の方法があります。データを適切に正規化/概算できる場合、「類似したアクティビティレベルを持つ異なる期間」の文法が得られます。このペーパーを参照して別のペーパーを検索してください。リンクを追加できません。


3
このページで利用可能なリソースの簡単な概要を教えてください。
chl

もちろん出来るよ。そこから始めて、独自の分類子
-seninp

1

ダイナミックタイムラッピングを使用して、異なる時系列間の類似性を探すことができると思います。そのためには、ウェーブレットを配列のようなコレクションに離散化する必要がある場合があります。ただし、粒度は問題になります。時系列が多数ある場合、すべてのペアのDTM距離を計算するための計算コストは​​かなり大きくなります。したがって、ラベルとして機能するには事前選択が必要になる場合があります。

これをチェックてください。私もあなたのような仕事に取り組んでいます。このページは私を助けてくれました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.