どの距離を使用しますか?例:マンハッタン、ユークリッド、ブレイカーティスなど


10

私はコミュニティ生態学者ではありませんが、最近はコミュニティ生態学データに取り組んでいます。

これらの距離の数学を除いて、私が理解できなかったのは、使用する各距離の基準と、それがどのような状況で適用できるかです。たとえば、カウントデータで何を使用しますか?2つの場所の間の傾斜角を距離に変換する方法は?または、2つの場所の温度または降水量ですか?各距離の前提条件は何ですか?それはいつ意味がありますか?


距離測定基準、それらの仮定、意味、および適用性を理解するための信頼できる方法は、それらの式を瞑想することです。ご存知のように、比較解剖学により、さまざまな動物の生活や行動を予測することができます。また、距離測定基準についての本/記事を読んでください。
ttnphns 2013

2
Pedantic note:ブレイカーティスは距離ではなく、非類似性です。
フランクダーノンコート2013

回答:


12

残念ながら、ほとんどの場合、質問に対する明確な答えはありません。つまり、どのようなアプリケーションでも、類似した正確な答えが得られる距離測定基準は確かにたくさんあります。有効に使用されている有効な距離メトリックが数十、おそらく数百あることを考えると、「正しい」距離を見つけることができるという概念は、適切な距離メトリックを選択する問題を考える生産的な方法ではありません。

代わりに、間違った距離メトリックを選択しないことに焦点を当てます。距離に「絶対等級」を反映させますか(たとえば、距離を使用して類似の平均値を持つ株価を特定することに興味がありますか)、または応答の全体的な形状を反映しますか(たとえば、時間とともに同様に変動する株価、しかし、完全に異なる生の値を持つ場合があります)?前者のシナリオはマンハッタンやユークリッドなどの距離を示し、後者はたとえば相関距離を示します。

データの共分散構造がわかっている場合は、マハラノビス距離がおそらくより適切です。純粋にカテゴリカルなデータの場合、距離のマッチングなど、提案されている距離は多数あります。カテゴリーと連続の混合の場合、ガワーの距離は人気があります(ただし、理論上は理論的には不十分です)。

最後に、私の意見では、結果と結論が距離測定基準の選択に対して(もちろん、適切な距離のサブセット内で)堅牢であることを実証すると、分析が強化されると思います。使用される距離メトリックの微妙な変化によって分析が大幅に変化する場合は、矛盾の原因を特定するためにさらに調査を行う必要があります。


1
どういう意味correlation distanceですか?1- r
ttnphns 2013

1
1rρ[1,1]cos1(ρ)1ρ22ρpractice

私の最後のコメントの引用:Krzanowski(1983)。Biometrika、70(1)、235--243。ページ236を参照してください
ahfoss

1
わかりました。この答えも確認してください。これは、rが、標準化されたデータ(比較対象のプロファイル)で得られたユークリッド距離に正確に関連しているという事実に関係reflect overall shape of the responseしています。
ttnphns 2013

1
良いポスト。ご指摘のとおり、2つの指標は確かに関連しています。現在のディスカッションへのポイントをコンテキスト化するための主な違いは、ユークリッド距離変数は(通常)中央に配置されないが、相関式は標準偏差によって変数とスケールを中央に配置することです。したがって、相関は線形変換に対して不変ですが、ユークリッド距離は必ずしもそうではありません。
ahfoss 2013

5

適切な距離を選択することは、基本的な作業ではありません。データセットでクラスター分析を行う場合、異なる距離を使用すると異なる結果が表示される可能性があります。したがって、変動をうまく捉える偽の良いアーティファクトを作成できますが、実際にはそうでないため、どの距離を選択するかを注意することが非常に重要です。私たちの問題の意味。

ユークリッド私は連続数値変数を持っていると私は絶対的な距離を反映したいときの距離が適切です。この距離ではすべての変数が考慮され、冗長性は削除されないため、同じことを説明する(相関している)3つの変数がある場合、この効果に3の重みを付けます。さらに、この距離はスケール不変ではないため、一般に、距離を使用するには事前にスケールする必要があります。
生態学の例:多くの地域からさまざまな観察結果があり、専門家が微生物学的、物理的、化学的要因のサンプルを採取しています。生態系のパターンを見つけたい。これらの要素には高い相関関係がありますが、すべての人が関連していることがわかっているため、これらの冗長性を削除したくありません。単位の影響を回避するために、スケーリングされたデータでユークリッド距離を使用します。

連続する数値変数があり、絶対距離を反映したい場合は、マハラノビス距離が適切ですが、冗長性を削除したいと考えています。変数を繰り返した場合、それらの繰り返し効果は消えます。

HellingerSpecies Profile、およびChord距離のファミリーは、変数間の差異を強調したい場合、プロファイルを区別したい場合に適しています。これらの距離は、各観測値の合計量によって重み付けされます。つまり、絶対的な大きさは非常に異なっていましたが、変数ごとに異なる場合、距離は小さくなり、個体はより類似しています。気を付けて!これらの距離は、プロファイル間の違いを非常によく反映しますが、マグニチュード効果は失われました。サンプルサイズが異なる場合、これらは非常に役立ちます。
生態学の例:多くの土地の動物相を調査したいとし、腹足類(行のサンプリング場所と列の種名)のインベントリのデータマトリックスがあります。一部の場所にはいくつかの種があり、他の場所には他の種があるため、行列は多くのゼロと異なる大きさを持つことで特徴付けられます。Hellinger距離を使用できます。

Bray-Curtisもよく似ていますが、プロファイルを区別し、相対的な大きさを考慮したい場合に適しています。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.