機械学習:時系列データのパターンを特定する


8

私は再生可能エネルギーで働いています。私の会社は機器から多くのデータを収集しています。これには通常、プロセスデータ(変圧器の温度、ライン電圧、電流など)および個別のアラーム(ブレーカートリップ、インバーターアラーム値、変圧器過熱アラームなど)が含まれます。これは、データの大まかな例です(csvの行として読み取られます)。

  • タイムスタンプ、タグ、値
  • 2016年5月25日14:30:01、INVERTER_1.VOLTAGE_DC、249.5
  • 2016年5月25日14:30:06、INVERTER_1.VOLTAGE_DC、250.1
  • 5/25/2016 14:45:02、TRANSFORMER_1.TEMP_ALARM、0
  • 2016年5月25日14:45:15、TRANSFORMER_1.TEMP_ALARM、1

(少なくとも今のところ)リアルタイムではなく、静止しているこのデータに対して何らかのパターン分析を開始したいと思います。私が試みたいのは教師なしの特徴学習だと思いますが、完全にはわかりません。機械学習を1)明白でないパターンを特定し、2)アルゴリズムがデータ内のパターンのシグネチャを特定できるようにするとよいと思います(たとえば、ブレーカが作動すると、単一のフィーダのすべてのインバータが通信を失う)開いています)。

私の最初の質問:これは時系列データと見なされますか?これまでの私の研究では、時系列データは時間の関数であるデータを参照しているようです。ほとんどのデータについて、ドメインエキスパートとして、データの関数を定義することがこの分析に役立つとは思いません。また、私の研究では、時系列データは離散ではなく実数値を参照しているように見えます。

コメントや関連参照があれば参考になります。


3
「任意のパターンの識別」は一般的すぎると思います。では、興味深いパターンは何ですか?この特定のケースの例はありますか?
2016年

1
私は主に機器の運用停止と機器の稼働時間に関心があります。これは、おそらく最初の焦点になるでしょう。たとえば、実行時間が約25日後に、インバータへの通信が停止しているとしましょう。これは、インバータ通信モジュールが通信を停止させるメモリリークがあった過去のプロジェクトの実際の例です。これはそれほど明白ではありませんが、インバーターの稼働時間データ値と通信停止(長期間のインバーターデータNaN)の間の相関関係を確認するとよいでしょう。
theoneandonly2

1
もっと簡単なことは、過去のデータからパターンを識別してグループ化することに焦点を当てることです。上記の私の例:ブレーカーが開いているとき、フィーダーのインバーターは通信を失います。別の例:インバーター通信が失われると同時に気象データが失われます(これは、気象ステーションがインバーターエンクロージャーから電力を供給されているためです)。ここでの両方の例で、通信の損失は特定のデータ値ではなくデータのギャップにつながります。この特徴が一番苦労しています。データの欠如を分析および分類するための調査はあまりありません。
theoneandonly2 2016年

回答:


3

はい、あなたのデータは時系列データ」です。これは、時間の経過とともに収集された同じ変数の一連の測定値だからです。時系列データは、連続的または不連続な間隔で収集できます。

サンプルデータは時間の関数として表すことできます。「関数」を測定された出力を生成するプロセスと考えるとわかりやすいかもしれません。関数への入力は日付/タイムスタンプで、出力はその時のそのパラメータ:

INVERTER_1.VOLTAGE_DC2016年5月25日14:30:01=249.5

時系列分析を実行するためにデータを生成する(一般的な)関数を定義する必要はありません。測定時に関数の値を知っていれば十分です。時系列データの範囲は、連続&実数値、離散、または非数値でさえあります。

たとえば、予測異常検出パターン識別など、時系列データに対して機械学習技術を使用することは確かに可能です。

予測モデリングに関心がある場合は、ニューラルネットが適しています。可能な設定の1つは、現在のパラメーター測定値をニューラルネットへの入力として使用することです。出力は、予測される将来の値または「システムの状態」です(たとえば、ブレーカーが開いているかどうか)。

WEKAは、多くの異なるMLアルゴリズムの実装を含む優れたオープンソースの機械学習ツールキットです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.