時系列データをどのように変換すれば、故障予測に簡単な手法を使用できますか?


8

これは主に統計サイトであることを知っているので、トピックから外れている場合はリダイレクトしてください。

ポンプが故障して交換が必要になるシステムがあります。故障を予測して、ポンプを交換する人に早期に警​​告したい。流量、圧力、液体の高さなど、ポンププロセスの履歴データがあります。

私は機械学習技術を使用してデータを分類する経験が少ししかありません-基本的に、コースラでのAndrew Ngの機械学習コースとAndrew ConwayのStatistics Oneの演習を行い、実行しました-私は機械学習を使用したことがありません時系列を分類します。既存の知識を活用できるように問題を変革する方法を考えています。知識が限られているため、最適な予測は得られませんが、これから学びたいと思っています。この問題では、障害が発生するのを待つだけでなく、予測を少し改善するだけでも役に立ちます。

私が提案するアプローチは、時系列を通常の分類問題に変えることです。入力は、ウィンドウ内の各タイプのデータの平均値、標準偏差、最大値などを含む、時系列ウィンドウの要約になります。出力については、何が最適かわかりません。1つのアプローチは、出力がウィンドウの終わりから特定の期間内にポンプが故障したかどうかのバイナリ分類になるというものです。もう1つは、出力がポンプが故障するまでの残り時間であるため、分類ではなく、回帰(機械学習の意味)です。

このアプローチは結果を生む可能性が高いと思いますか?それは「ドメインと履歴データに依存する」という問題ですか。私が考慮していない(入力と出力の両方の)より優れた変換はありますか、または時系列データに基づく障害予測は、より標準的な障害予測とは異なり、時系列で機械学習を読むことに時間を費やすのに適していますか? ?


ポンプのリアルタイムの振動/ノイズ測定は、ここでは本当にお勧めです。
image_doctor

@image_doctor:私はそれを得ることができるかもしれません。振動/騒音は問題の領域に関連しているので、それは良いことだと思いますか?その場合、他のデータのようにまとめることはできませんか?それとも、本質的にはリアルタイムでの情報処理に関するものですか?1日以上(できれば)以上のように、事前に障害を予測できるようにしたいと考えています。ドメインとデータで実現可能かどうかはわかりません。しかし、このタイムスケールは、リアルタイム処理が本当に役立つことを示唆していません。リアルタイムが重要だと言ったら、何か誤解していませんか?
Boris

問題ドメインに関連しています。ポンプは、故障する前に振動モードの不均衡または変化の兆候を示すことがよくあります。リアルタイムのスペクトル分析、または少なくとも毎時のサンプルのようなものは、故障予測に非常に役立つ機能です。
image_doctor

同様の問題があり、現在Cox比例ハザードモデルを使用する可能性を評価しています。これをソリューションで使用できましたか?結果を達成するために取った最終的な解決策を教えてください。

回答:


5

生存分析(故障の時間が特定の時間よりも大きい確率)とハザード関数(ユニットが故障した場合にユニットが故障する瞬間的な確率)を推定できない生存分析を確認することをお勧めします。これまでに障害が発生しました)。ほとんどの生存分析アプローチでは、時不変および時変予測子を入力できます。

セミパラメトリックCox比例ハザードモデル(別名Cox回帰)やパラメトリックモデルなど、さまざまな生存分析アプローチがあります。Cox回帰では、基礎となるベースハザード関数を指定する必要はありませんが、データの障害パターンを適切にキャプチャするには、パラメトリックモデルが必要な場合があります。パラメトリック加速故障時間モデルが適切な場合があり、故障率は時間とともに増加します。

ホールドアウトテストセットで障害を予測する方法を最も簡単に確認できるので、Cox回帰から始めてみてください。これを非時間ベースの分類問題に変換しようとするよりも、時間と打ち切り(まだ失敗していないポンプ)を明示的に考慮したある種の生存分析の方が、より良い結果が得られると思います。


私も同様の問題を抱えており、生存分析フレームワークでそれを組み立てようとしています。基本的に、同じプラントが故障し続け、メンテナンス後に再び機能します。いつ、いつプラントが故障するかを判断したいと思います。その場合、生存分析には障害ごとに1行が含まれるため、各時間間隔で複数の測定値を組み合わせる方法がありましたが、障害が発生するまでに数時間データを収集していました。
弟子

1

データの可用性(後者は障害が発生した正確な時間を知る必要があるが、前者はそうではない)と、障害までの時間の見積もりが本当にあなたの問題(私のデフォルトは分類を最初に試すことです)


ありがとう。はい、ある意味で、障害までの時間の見積もりは結果に至るまでの時間が長くなりますが、見積もりの​​対象となる障害期間を決定する問題を回避できます。データが10日間の障害期間の分類をより適切にサポートしているかどうかはわかりません5日の期間よりも長いので、分類では、多くの分類子をトレーニングしてから、最良の結果を得るか、タイムリーな警告を出すかをトレードオフする必要があります。障害が発生するまでの時間を見積もると、それを回避できますが、見積り自体が難しい場合があります。
ボリス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.