標準偏差の2Dアナログ?


19

次の実験を考えてみましょう。人々のグループに都市のリストが与えられ、世界の(ラベル付けされていない)地図上の対応する場所をマークするように求められます。各都市について、それぞれの都市のほぼ中心にある点の散布図を取得します。イスタンブールなどの一部の都市は、他の都市よりも散乱が少ないとモスクワは言います。

与えられた都市について、testによって割り当てられたマップ上の都市の位置(ローカル座標系など)を表す2Dサンプルのセットを取得すると仮定しましょう件名。このセットのポイントの「分散」の量を、適切な単位(km)の単一の数値として表現したいと思います。{(xi,yi)}(x,y)i

1D問題の場合、標準偏差を選択しますが、上記のような状況に対して合理的に選択できる2Dアナログはありますか?


征服しますか?
RockScience

例が明示的に空間である場合、空間タグを追加しました。あなた(または他の誰か)が不要だと感じた場合は、その追加を自由にロールバックしてください。
アンディW

回答:


12

使用できるものの1つは、中心点からの距離測定です。たとえば、点のサンプル平均、または観測ポイントの重心。次に、分散の尺度は、その中心点からの平均距離になります。c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

ここで。距離測定には多くの潜在的な選択肢がありますが、ノルム(例:ユークリッド距離)が妥当な選択です。 L 2zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

ただし、他にも多くの選択肢があります。http://en.wikipedia.org/wiki/Norm_%28mathematics%29を参照してください


距離はゼロではありませんが、縮退の場合は1次元の通常の標準偏差と一致しないため、これは確かに奇妙な選択です。したがって、代わりに検討してください。zic2
アレックスR.

6

ポイントパターンの空間分布のメトリックに関する適切なリファレンスは、CrimeStatマニュアルです(特にこの質問については、第4章が興味深いでしょう)。推奨されるメトリックマクロと同様に、標準距離偏差は2D標準偏差に似ています(唯一の違いは、マクロが与えた最初の式で「n」ではなく「n-2」で除算することです)。

あなたの実験例は、実際に研究が地理的犯罪者プロファイリングをどのように評価するかを少し思い出させます。特に、精度と精度という用語はかなり使用されており、研究に関連します。推測の標準偏差はわずか(つまり正確)ですが、精度は非常に低くなります。


1

データセットの相関を考慮し、「スケール不変」であるため、ユークリッド距離の基準ではなく「マハラノビス距離」を使用する必要があると思います。リンクは次のとおりです。

http://en.wikipedia.org/wiki/Mahalanobis_distance

「Half-Space Depth」も使用できます。少し複雑ですが、多くの魅力的な特性を共有しています。データセットPに対する特定のポイントaの半空間の深さ(ロケーションの深さとも呼ばれます)は、aを通る線で決定される閉じた半平面にあるPの最小ポイント数です。リンクは次のとおりです。

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
特定の点がセットに「属する」かどうかを判断しようとするときにマハラノビス距離を使用することを理解していますが、重心からのユークリッド距離の平均ではなく、単変量設定?
マクロ

2
「データの相関関係を考慮に入れる」および「スケール不変」というステートメントについて詳しく説明してもいいですか?これらの事柄のいずれかは、当面の質問にどのような関係がありますか?
アンディW

標準偏差の高次元への通常の拡張は、もちろん、データの中心から特定のポイントまでの距離を計算する方法ですが、ここでは各ポイントを正規化しているため、クラスター分析や外れ値検出を簡単に実行できます。また、マハラノビス距離は、点の分布が非球形である場合により適応的です。球対称の場合、通常の拡張標準偏差と同じです。データ点の共分散行列は単位行列になります。
VitalStatistix

1

私は実際に最近同様の問題に遭遇しました。ポイントがエリアごとにどれだけうまく分散しているかを測定する方法が必要なようです。もちろん、特定の測定では、2次元の多様性がないため、すべてのポイントが直線上にある場合、答えはゼロであることを認識しなければなりません。

私が行った計算から、これは私が思いついたものです:

SxxSyySxy²

この場合、SxxとSyyはそれぞれxとyの分散ですが、Sxyはxとyの混合分散のようなものです。

詳述すると、n個の要素があり、はxの平均値を表し、はyの平均を表します。xμyμ

Sxx=1ni=1n(xxμ)²
Syy=1ni=1n(yyμ)²
Sxy=1ni=1n(xxμ)(yyμ)

うまくいけば、これはあなたのために働くはずです。

また、4次元で体積の広がりやサーテロンの大きさを測定するなど、より高い次元でそれを行う方法を知りたい場合は、次のようなマトリックスを形成する必要があります。

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

そして、あなたが必要とする多くの次元のために続けます。上記の定義が与えられているが、異なる変数について、S値を把握できるはずです。

マトリックスが形成されたら、行列式を取得し、平方根を見つければ完了です。


0

以下のために、この特定の例所定の「正しい」答えはそこにある- -私は、彼らは地図上のマークに頼まれていた都市の周りの極座標であることをX / Y cooridnatesを、作業し直すでしょう。次に、放射状成分(平均、SDなど)に対して精度が測定されます。「平均角度」を使用してバイアスを測定することもできます。

私にとっては、事前に決められた中心点がない場合の良い解決策を探していますが、重心を作成するためにデータを事前に渡すという考えは好きではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.