クラスター分析について質問があります。3000社があり、5年間の電力使用量に応じてクラスター化する必要があります。各企業には、5年間の1時間ごとの価値があります。一部の企業が、一定期間にわたって使用電力のパターンが同じかどうかを調べたいと思います。結果は、電力使用量の毎日の予測に使用する必要があります。SPSSで時系列をクラスター化する方法についてアイデアをお持ちの場合は、私と共有してください。
クラスター分析について質問があります。3000社があり、5年間の電力使用量に応じてクラスター化する必要があります。各企業には、5年間の1時間ごとの価値があります。一部の企業が、一定期間にわたって使用電力のパターンが同じかどうかを調べたいと思います。結果は、電力使用量の毎日の予測に使用する必要があります。SPSSで時系列をクラスター化する方法についてアイデアをお持ちの場合は、私と共有してください。
回答:
A)過ごす多くのデータを前処理に時間のを。前処理は仕事の90%です。
B)時系列に適切な類似性尺度を選択します。たとえば、ここではしきい値を超える距離が適しています。異なるタイムゾーンがない限り、おそらく動的なタイムワーピング距離は望まないでしょう。しきい値の交差は、実際の規模に注意を払わずに、時間パターンを検出するのにより適切な場合があります(これは、会社ごとに大きく異なる可能性があります)。
C)階層的クラスタリングやDBSCANなどの任意の距離関数で機能する方法を使用して、結果の非類似度マトリックスをクラスター化します。
毎日、毎週、および毎年の周期で時系列の時系列を予測することをお勧めします毎日のデータと休日/リグレッサーを含む時間ごとのデータの議論。5年間のデータがあり、他の議論には883個の毎日の値が含まれています。私が提案するのは、曜日などのリグレッサーを組み込んだ時間ごとの予測を作成できることです。1日の合計を追加の予測因子として使用して、年の週と祝日。この方法では、3,000社の各会社に24のモデルがあります。今、あなたがしたいことは時間ごとです、各リグレッサ、曜日、曜日の変化の周りの応答のパターンを説明する共通のARIMAX構造を使用して3,000のモデルを推定します外れ値を分離する際のパラメーターと毎週の指標。その後、3000社すべてを使用してグローバルにパラメーターを推定できます。チャウテストを実行するhttp://en.wikipedia.org/wiki/Chow_testパラメータの不変性と拒否により、企業は同種のグループにクラスター化されます。これを単一次元クラスター分析と呼んでいます。SPSSの時系列機能は非常に限られているため、ソフトウェアについては他の場所を調べてください。