どこから始めるか:多数の外れ値またはランダム性がある不等間隔の時系列


8

何ができるのか本当にわからないので、正しい方向への指針を求めています。

時間と位置の測定値があります。これは、歩いている人、道路上の車、駐車場、オフィスのプリンターなど、あらゆるものです。2点間の車両の移動時間を計算する必要があります。曲がりくねったルートをたどる場合もあれば、AからBに到着するまでに数日かかる場合もあります。あるいは、歩行者や緊急時のサービス車両である場合もあります。

メインルートに沿った通常の車両の推定所要時間を知りたい。

検出は、特定の半径を持つ検出器の近くに誰かがいるときはいつでも行われます。検出が非常に少ない場合があります。これは、道路が空で、所要時間が適切であることを意味しますが、道路が閉鎖されていることを示している可能性があり、所要時間はひどいものになります。または、交通が動いていないことを示す検出がたくさんあり、道路をオフにするためにキューに入れられている可能性がありますが、他の車両は通常の速度で走行しています。

プロットはランダムノイズのように見えます。

編集:

現在、私は2つの方法を検討しています。

  1. 四分位範囲を使用して外れ値を破棄する
  2. カルマンフィルターを使用します。

時々刻々と変化することを期待しない限り、私は旅行時間のモデルを持っていないので、フィルターは行くのに間違った方法だと思います。


1
これは、Annals of Applied Statisticsの方法論論文とJournal of Transportation Researchの実体論文を必要とする作品のように見えます。コミュニティが回答もコメントも両方の論文を書くことを期待すべきではなく、むしろ輸送統計学者や経済学者の協力を求めたいと思うでしょう。または、これを統計学または経済学の大学院生に論文のトピックとして投げてください。
StasK

2
@StasKコミュニティが私のために論文を書くことを期待していなかったので、正しい方向への指針を求めました。ただし、これはかなりの作業であることをお知らせいただきありがとうございます。
Peter Wood

私が言いたかったのはそれだけです。不均一な時間間隔がある場合は、バリオグラムモデリングとクリギングの使用を検討することをお勧めします。これは、一般に空間統計ツールと見なされます。
StasK

@StasKクリギングとバリオグラムが必要だとは思いません。2点間のルートのジオメトリは比較的不明であり、探している結果の種類には重要ではありません。各ポイントで検出された2つのポイントと、多くの偽の行程検出があります。ノイズを除去し、現在および過去の道路状況を適切に推定したいと考えています。関心をお寄せいただきありがとうございます。
Peter Wood

回答:


1

期待どおりの答えが得られるかどうかはわかりませんが、この場合はベイジアンアプローチが適していると思います。

この場合、カルマンフィルターの正しいモデルを設定することが問題になるのではないかと思うので、カルマンの代わりにパーティクルフィルターを確認することをお勧めします。カルマンを利用したい場合は、さまざまな種類のフィルターがあり、エラー共分散について十分な知識が必要なフィルターもありますが、問題が発生する可能性がありますが、マンテカルロで計算できるものもあります。無香料カルマンフィルターを見てください。

http://www.udacity.com/overview/Course/cs373/CourseRev/apr2012は、移動する車両とGoogleの自動運転車の推定に関する基本的な情報を説明しているため、気に入っていただけるかもしれません。(それはpythonです)。

多分あなたの質問のいくつかのより多くの詳細はより役立つでしょう、そしてあなたはより正確な答えを得ることができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.