軌跡のクラスタリング((x、y)ポイントのGPSデータ)およびデータのマイニング


14

人間の砲弾のためのオフィスでちょうど別の日。

GPSデータセットの分析に関して2つの質問があります。

1)軌跡の抽出フォームの記録されたGPS座標の巨大なデータベースがあります(latitude, longitude, date-time)。連続するレコードの日時の値によると、私はその人がたどるすべての軌跡/パスを抽出しようとしています。例えば; 時間から言うとM(x,y)ペアは時間まで連続的に変化していNます。後N(x,y)ペアの変化は減少し、その時点で、時間MからN軌道と呼ぶことができます。それは軌道を抽出するときに従うべき適切なアプローチですか?提案できるよく知られたアプローチ/方法/アルゴリズムはありますか?これらのポイントを効率的な方法で維持することを提案したいデータ構造または形式はありますか?おそらく、各軌跡について、速度と加速度を把握することが有用でしょうか?

2)軌跡のマイニングすべての軌跡をたどる/パスを取得したら、それらを比較/クラスタリングするにはどうすればよいですか?開始点または終了点が類似しているかどうかを知りたいのですが、中間パスはどのように比較されますか?

2つのパス/ルートを比較して、それらが類似しているかどうかを判断するにはどうすればよいですか。さらに; 同様のパスを一緒にクラスター化するにはどうすればよいですか?

この件に関する研究などを指摘していただければ幸いです。

開発はPythonで行われますが、あらゆる種類のライブラリの提案を歓迎します。

StackOverflowでまったく同じ質問/programming/4910510/comparing-clustering-trajectories-gps-data-of-xy-points-and-mining-the-dataを開いています。ここでもっと答えが得られると思いました...


1
良い答えは、この分析を行う理由に注意を払うでしょう。あなたの「人」はどのような活動をしていますか?この文脈では、「軌跡」とはどういう意味ですか?なぜ軌道に興味がありますか?軌跡が「類似」するということはどういう意味ですか?あなたの説明は適切な答えを提案します。明確化せずに、適切な答えを得ることは運と当て推量の問題になります。
whuber

さて、私はその人の日常生活を理解することに興味があります。彼女は毎日/毎週/毎月どこに行き、そこに行くときに通常どのような経路/ルートをたどりますか?彼女がめったにたどらない道は?
ミュラ

データベースには、1〜2秒の頻度で1か月以上にわたって記録された人々のGPSポイントが含まれています。彼らが何をしているのか分かりません。実際、それが私が知りたいと思っていることです。
ミュラ

1
@Murat OK、それは良いことです。もっと正確にしましょう。人が家やオフィスを動き回るとき、それは静止していると考えますか、それともそれらの軌道を追跡しようとしていますか?2つの軌道が「類似」していると言うとき、それらはポイントAとBの間で同じ経路をたどっているように見えますか、それとも両方がポイントAからポイントBに移動しているように見えますか?ところで、あなたのデータは完全ですか、それとも、データが欠落しているか、エラーがあるとわかっている期間がありますか?
whuber

1
@ user5013-Microsoft Researchが公開した内容をご覧ください。「合計距離が約120万キロメートル、総継続時間が48,000時間以上の17,621個の軌道が含まれています。」research.microsoft.com/en-us/downloads/...
ミュラ

回答:


2

興味があると思われる2つの記事は、あなたと同じような動機を持っているためです。

人間の移動における予測可能性の限界 :Chaoming Song、Zehui Qu、Nicholas Blumm、Albert-LászlóBarabási。 サイエンス、Vol。327、No。5968。(2010年2月19日)、1018〜1021ページ。

個々の人間の移動パターンの理解 :マルタC.ゴンザレス、セザールA.イダルゴ、アルバートラスロバラバシ。 Nature、Vol。453、No。7196(2008年6月5日)、pp。779-782。

2つの研究は同じデータを使用していることに注意してください。これはあなたのものに似ていますが、空間や時間の精度レベルではありません。私はあなたが軌跡として見つけたいものを説明するものとは思わないが、私はそれを何と呼ぶか​​わからない。「軌跡」の開始/終了ノードを正確にクラスター化するのはなぜですか。


2

PySAL - Pythonの空間分析図書館は良いスタートかもしれ- http://code.google.com/p/pysal/

特に自己相関セクション:

空間的自己相関は、一連の空間単位にわたる属性値の非ランダムパターンに関係します。これには、2つの一般的な形式があります。空間における値の類似性を反映する正の自己相関と、空間における負の自己相関または値の非類似性です。どちらの場合でも、観測された空間パターンが空間で動作するランダムプロセスで予想されるものと異なる場合に、自己相関が発生します。

http://pysal.org/1.2/users/tutorials/autocorrelation.html

また、ポイントパターン分析に Rライブラリhttp://cran.r-project.org/web/views/Spatial.htmlの使用を検討することもできます。

その他のRパッケージ:

動物追跡用の空間データにアクセスして操作するための機能。速度をフィルタリングし、動物追跡データからプロットに費やした時間を作成します。

また、OSMから利用可能な既存のリニアトランスポートネットワーク(道路/鉄道)にポイントをスナップすると、分析を簡素化できます。次に、これらの行と1日の特定の時間にそれらを使用する人数に基づいてシンボル化できます。


自己相関を調べることを提案する質問の文脈を考えると、意味がありません。どの属性の自己相関?
アンディW

GPS読み取り値のタイムスタンプを使用して、1日の異なる時間に町または都市のどのエリアが使用されているかを確認できます。主要な研究が人々が何をするか、またはどのようにしてそこにたどり着くかを見つけることであるかどうかは明らかではありませんが。
geographika

また、「継続時間」パラメータをグループ化し、指定された個人のための密接に関連するポイントで誘導されたポイントのデータセットを分析することができた
geographika

最初のコメントは、分析の単位を人から場所に変更します。質問は多少曖昧であることに同意しますが、OPが場所をクラスター化することをほのめかすようなことは何もありません。2番目のコメントの引数を見ることができます(ポイントには速度の属性があります)。興味深い概念ではありますが、かなり抽象的で斬新なため、空間的な自己相関を調べることを提案することはあまり意味がなく、混乱する可能性があります(パス全体ではなく、そのフレームワークでポイントをクラスター化できます)。pysalとRのライブラリが興味があることに同意します。
アンディW

2

私はあなたの人々の軌跡や経路についてあまりコメントすることはできませんが、あなたはクラスターと時間のアプローチで正しい軌道に乗っていると思います。

Snow Leopard Conservancyで何人かの人々と協力しながら、昨年Esri UCのデモをまとめました。http//resources.arcgis.com/gallery/file/geoprocessing/details?entryID = 1F9F376F-1422-2418 -7FBC-C359E9644702

与えられた基準に基づいてSnow Leopardの「餌場」(クラスター)を調べます。

  • それらのポイントがどのようにグループ化されたか(互いの距離)
  • ポイントの最小しきい値(私の分析では、約12時間ごとに測定値が取得されるため、4ポイント以上が必要でした)
  • ポイントは連続している必要があります(線形順序で収集する必要があるため、分析の簡単な部分)

Esriツールを使用して距離分析を行いますが、内部のpythonスクリプトは、どのポイントが近くにあるかが分かれば、クラスタリングのアイデアに役立ちます。(グラフ理論を使用します:http : //en.wikipedia.org/wiki/Graph_theory

他の回答で述べたように、意思決定に必要な属性を決定するための論文があります。

分析は、Knopff、KH、ARA Knopff、MB Warren、MS Boyceの概念に大まかに基づいていました。2009.クーガーの捕食パラメーターを推定するための全地球測位システムのテレメトリー技術の評価。Journal of Wildlife Management73:586-597。


2

一連の軌跡であらゆる種類のクラスタリングを実行するには、軌跡ペアの類似性または距離を計算する方法が必要です。これにはいくつかの既存の方法があり、特別な場合や従来の方法の欠点を修正するために新しい方法が開発されています(私は博士論文のために新しい方法に個人的に取り組んでいます)。よく知られているアルゴリズムは次のとおりです。

  • 最も近いペアの距離:2つの軌跡の距離を、互いに最も近いポイントペアの距離で定義するだけです。軌跡は同じ数のポイントで構成されている必要があります。
  • ペアの距離の合計:各ポイントペアの距離を計算し、それらを合計します。軌跡が同じ長さの場合にも機能します
  • ダイナミックタイムワーピング(DTW)距離:このアルゴリズムは、異なる量の測定ポイントの軌跡を処理するために開発されました。これは、ポイントペアで機能し、ペアの距離の計算で1つの軌跡のポイントを複数回使用できます(もう1つの軌跡が「速すぎる」場合)。DTWの図ウィキペディアの画像)
  • 最長共通部分列:名前が示すように、元のパスが互いに近くを移動している最長部分軌跡の長さによって、2つの軌跡の類似性を定義します。
  • リアルシーケンスの編集距離(EDR)とリアルペナルティの編集距離(ERP)は、一方の軌跡を他方の軌跡に変換するために必要な編集操作(追加、削除、または置換)の数によって類似性を定義します。

この分野に興味のある方は、Microsoft Asiaの多くの再販業者からの「空間軌道による計算」という本を強くお勧めします。


0

これはあなたにも役立つかもしれません:

Orellana D、WachowiczM。歩行者の移動における運動中断のパターンの調査。Geogrアナル。2011; 43(3):241-60。PubMed PMID:22073410。

このブログもご覧ください。

ideasonmovement.wordpress.com/

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.