活動頻度の一時的なデータがあります。データ内で、類似したアクティビティレベルを持つ異なる期間を示すクラスターを特定したい。理想的には、事前にクラスターの数を指定せずにクラスターを識別したいと思います。
適切なクラスタリング手法とは何ですか?質問に答えるのに十分な情報が含まれていない場合、適切なクラスタリング手法を決定するために提供する必要がある情報は何ですか?
以下は、私が想像している種類のデータ/クラスタリングの実例です。
活動頻度の一時的なデータがあります。データ内で、類似したアクティビティレベルを持つ異なる期間を示すクラスターを特定したい。理想的には、事前にクラスターの数を指定せずにクラスターを識別したいと思います。
適切なクラスタリング手法とは何ですか?質問に答えるのに十分な情報が含まれていない場合、適切なクラスタリング手法を決定するために提供する必要がある情報は何ですか?
以下は、私が想像している種類のデータ/クラスタリングの実例です。
回答:
私自身の研究から、Gaussian Hidden Markov Modelsが適しているようです:http : //scikit-learn.org/stable/auto_examples/plot_hmm_stock_analysis.html#example-plot-hmm-stock-analysis-py
明確な活動のエピソードを見つけるようです。
あなたの問題は私が見ているものと似ているように聞こえますが、この質問は似ていますが、あまり説明されていません。
彼らの回答は、変更検出に関する優れた要約にリンクしています。考えられる解決策については、グーグルで簡単に検索すると、グーグルコードにChange Point Analysisパッケージが見つかりました。Rにはこれを行うためのツールもいくつかあります。このbcp
パッケージは非常に強力で、本当に使いやすいです。データが入ったときにその場でそれを行いたい場合は、「ゲノムデータへの適用を伴うオンラインの変化点検出とパラメーター推定」という論文で、非常に洗練されたアプローチが説明されます。strucchange
パッケージもありますが、これは私にはあまりうまくいきませんでした。
ウェーブレットは、異なるプロパティを持つ期間を識別するのに役立ちます。ただし、時系列を個別の期間に分割する方法があるかどうかはわかりません。そして、私はまだ始まったばかりであるため、多くの理論が歩き回る必要があるようです。他の提案を読むのを楽しみにしています。
このページを見ましたか:UCR時系列分類/クラスタリングページ?
練習用のデータセットと公開結果-独自の実装のパフォーマンスを比較します(よく知られた機械学習技術の既知のパフォーマンスに関するリンクもあります)。さらに、このページでは、問題、データ、またはニーズに合った最適なアプローチの研究をさらに進めることができる重要な論文を引用しています。
また、sequitur http:// sequitur.infoを適用することにより、(可能性として)それを行う別の方法があります。データを適切に正規化/概算できる場合、「類似したアクティビティレベルを持つ異なる期間」の文法が得られます。このペーパーを参照して別のペーパーを検索してください。リンクを追加できません。