平均GPSポイントを見つける


11

ポイントの母集団から平均GPSポイントを見つけるプログラムを書く必要があります。

実際には、次のことが起こります。

  • 毎月、人は同じ静的アセットのGPSポイントを記録します。
  • GPSの性質上、これらのポイントは毎月若干異なります。
  • 時々人は間違いを犯し、完全に別の場所で間違った評価を記録します。
  • 各GPSポイントには、現在のGPSデータがどれだけ正確であるかを示す確信度の重み(HDOP)があります。より良いHDOP値を持つGPSポイントが、低いものよりも優先されます。

以下をどのように判断しますか:

  • 2つの値と、年齢などの単一の値を持つデータを扱います。(人口の平均年齢を見つける)
  • 外れ値を決定します。以下の例では、これらは[-28.252、25.018]と[-28.632、25.219]になります。
  • 外れ値を除外した後、これで平均GPSポイントを見つけます[-28.389、25.245]。
  • 各ポイントのHDOP値によって提供される「ウェイト」を機能させることができれば、それはボーナスになります。

代替テキスト


1
この回答は、ポイントの平均化、stats.stackexchange.com/questions/2493/…を支援するのに十分似ています。そのフレームワークに重みを組み込むのは簡単です。いくつかの簡単なヒューリスティックを使用して外れ値を特定できると思いますが、それでも、Stephanが提案したようなより経験的なアプローチをとることはできます。
アンディW

回答:


8

多変量データの問題の1つは、距離を計算するための適切なメトリックを決定し、解釈することです。そのため、マハラノビス距離などの賢いが説明が難しい概念があります。しかし、この場合、選択は明白です- ユークリッド距離。次のような簡単なヒューリスティックアルゴリズムをお勧めします。

  1. データポイントの(重み付けされていない)重心、つまり2つの座標の(重み付けされていない)平均を計算します。
  2. 重心からのすべての読み取り値のユークリッド距離を計算する
  3. 特定の距離よりも離れている測定値を除外します(テクノロジーの経験と知識に基づいて決定されるか、または試行錯誤の相互検証に失敗した場合-100m、1km、10km ??)
  4. 残りのポイントの両方のコードの加重平均を計算し、HDOPスコアの逆数(またはその単調関数)で重み付けします。質問にリンクされているウィキペディアのページをざっと見て、そのようなものは必要ないと思います関数ですが、確認するためにさらに調査する必要があります)

これをより洗練させる方法はいくつかあります。たとえば、外れ値の単純な除外ではなく、外れ値のダウンウェイトやMエスティメータの使用などですが、そのような高度な機能が本当に必要かどうかはわかりません。


3

Rob Hyndmanは最近、多変量データの外れ値の検出について質問しました。回答は、いくつかの可能なアプローチを提供する場合があります(そうでない場合は、2次元の外れ値を見つけるという質問を別の質問に入れることもできます)。

さらに、残りのGPSデータコンポーネントをコンポーネントごとに平均化できます。最初のコンポーネントをすべて追加し、ポイント数で除算すると、平均の最初のコンポーネントが得られます。2番目のコンポーネントと同じです。

この平均化は、HDOPによって重み付けできます。最初のコンポーネントの積を合計し、対応するHDOPスコアを掛けて、その合計をHDOPスコアの合計で割ります。2番目のコンポーネントと同じです。

「通常配布」タグを自由に削除します...


@Stephan Kolassaに感謝します。これはすでに解決策を見つけるのに役立ちます。
フィリップフーリー

2

HDOPを独立変数と呼びます。これを後で重み付けするために使用します。つまり、座標のセットがあります-これを(x1、y1)と呼びます。(x2、y2)など...最初に外れ値を無視します。x座標の加重平均を[(x1 * h1)+(x2 * h2)+ .... +(xn * hn)] / [sum(h1、h2、...、hn)]として計算しますここで、h1、h2、...はHDOP値です。Y座標についても同じことを行います。これにより、各座標のかなり正確な平均値が得られます。

外れ値の扱いは少し難しいかもしれません。それらが異常値であるかどうかをどのようにして知るのですか?厳密には、観測値への統計的適合を決定し、信頼区間内でそれらが本物かどうかを判断する必要があります。毒物分布が頭に浮かぶ質問を見てください。しかし、これはおそらく多くの作業であり、あなたはこれに行きたくないと確信しています。多分近似を使用しますか?たとえば、平均座標値を使用することをお勧めします。次に、標準偏差の値を決定します。標準の開発者または毒物の分布は1 /(平均)だと思います。次に、正規分布と95%信頼区間を使用して概算します。観測値が間隔の外にある場合(平均-* 1.645 * std dev;平均+ 1.645 * std dev)、それは異常値ですか?これを試してみてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.