いくつかのGPSベースのレポートから実際の位置(feスピードカム)を特定するソフトウェアの開発に取り組んでいます。場所を報告するとき、ユーザーは運転しているので、報告は非常に不正確です。その問題を解決するには、同じ場所に関するレポートをクラスター化し、平均を計算する必要があります。
私の質問は、これらのレポートをクラスター化する方法についてです。期待値最大化アルゴリズムとk平均クラスタリングについて読みましたが、理解したとおり、実際の位置の数を事前に決定する必要があります。
実際の場所の正確な数を必要とせず、代わりにいくつかのエッジ条件を使用する他のアルゴリズムはありますか?
レポートには、経度、緯度、および精度(メートル単位)が含まれています。重複を識別するために使用できる名前などはありません。
別の障害は、それが一般的であり、実際の場所のレポートが1つしかないことです。そのため、外れ値と適切なデータを区別するのが難しくなっています。
1
「...実際の場所の数を事前に決定する必要があることはわかっていたので...」と言ったとき、あなたが何を意味しているのかわかりませんこの。レポートの数に基づいてクラスターコンポーネントの数を増やすことを計画していますか?
—
Pat
2番目の質問:)。あなたのレポートが運転している誰かから来ているなら、おそらくそれらの間の位置に大きな変化があるでしょう。レポートには、いつ撮影されたかを知らせるタイムスタンプが付いていますか?
—
2013年
こんにちはパット。私はそれをより明確にするために交通渋滞やスピードカムについて話している。1. k-meansクラスタリングの「k」は、クラスタの数を表します。私の場合、ロケーションごとに1つのクラスターがありますが、ロケーションがいくつあるかわかりません。2.はい、タイムスタンプも含まれます。しかし、私はポジションを気にするだけなので、なぜそれが重要なのか理解できません。
—
クリスチャンストレンフェール2013年
1.ああ、なるほど。そのため、ロケーションの数は不明であり、各ロケーションは1つ以上のレポートを生成します。ただし、表示されるのは一連のレポートだけです。観察されたレポートに基づいて、ロケーションの数とその位置を推測する必要があります。わかった?2.タイムスタンプについて心配しているのは、ユーザーがレポートを提供するときに運転していると言うからです。そのため、レポートが非常に迅速に連続するか、速度が非常に遅い(交通渋滞の場合)場合を除き、1つの場所は道路を走るレポートの不規則なラインのように見えます。タイムスタンプが役立つかもしれません
—
Pat
1.はい、そうです。2.これは手動のタスクであるため、1つの旅行中にユーザーごとに1回だけ場所を報告する必要があります。しかし、あなたが正しい、ユーザーが誤って2回クリックした場合は重複を処理する必要があり、高速運転ではレポートが不正確になります。そのため、ロケーション間の最小距離のエッジ条件について説明しました。数マイルに及ぶ可能性がある交通渋滞を無視し、場所が非常に狭いと仮定します。
—
Christian Strempfer、2013年