私のデータの各観測は、0.1秒の差で収集されました。日付とタイムスタンプがないため、時系列とは呼びません。クラスタリングアルゴリズム(オンラインで見つけた)とPCAの例では、サンプルデータにはケースごとに1つの観測値があり、時間は計測されていません。しかし、私のデータには、車両ごとに0.1秒ごとに収集された何百もの観測があり、多くの車両があります。
注:私は定足数についてもこの質問をしました。
私のデータの各観測は、0.1秒の差で収集されました。日付とタイムスタンプがないため、時系列とは呼びません。クラスタリングアルゴリズム(オンラインで見つけた)とPCAの例では、サンプルデータにはケースごとに1つの観測値があり、時間は計測されていません。しかし、私のデータには、車両ごとに0.1秒ごとに収集された何百もの観測があり、多くの車両があります。
注:私は定足数についてもこの質問をしました。
回答:
あなたが持っているのは時間によるイベントのシーケンスですので、それを時系列と呼ぶのをためらわないでください!
時系列のクラスタリングには2つの異なる意味があります。
私はあなたが2番目のものを意味すると思います、そしてここに私の提案があります:
あなたは多くの車両と車両ごとの多くの観測を持っています。つまり、あなたは多くの車両を持っています。したがって、いくつかの行列(各車両は行列)があり、各行列にはN行(観測のNr)とT列(時間点)が含まれています。1つの提案は、PCAを各マトリックスに適用して次元を削減し、PCスペースでデータを観察し、マトリックス(車両)内の異なる観察間に意味のある関係があるかどうかを確認することです。次に、すべての車両の各観測を相互に配置して行列を作成し、PCAをそれに適用して、異なる車両間の単一の観測の関係を確認できます。
負の値がない場合は、行列形式データの次元削減のために行列因数分解を強くお勧めします。
別の提案として、すべての行列を互いに重ね合わせて、N x M x Tテンソルを作成することができます。ここで、Nは車両の数、Mは観測数、Tは時系列であり、テンソル分解を適用して関係をグローバルに確認します。
時系列クラスタリングへの非常に優れたアプローチがこのホワイトペーパーに示されていますが、実装は単純です。
お役に立てば幸いです。
幸運を :)
あなたが言ったようにあなたは時系列セグメンテーションを意味します私はこれを答えに追加します。
時系列のセグメンテーションは、評価の根拠となる唯一のクラスタリング問題です。確かにあなたは時系列の背後に生成分布を考えると、私は強くお勧めします、それを分析し、これを、この、この、この、この、およびこの問題を総合的に研究されています。特に最後の1つと博士論文。
幸運を!