階層的クラスタリングが有効であるためには、距離が「メトリック」である必要がありますか?


9

N個のアイテム間の距離をmetricではないものと定義するとします。

この距離に基づいて、次に凝集階層的クラスタリングを使用します

既知の各アルゴリズム(単一/最大/平均リンクなど)を使用して、意味のある結果を取得できますか?または別の言い方をすると、距離がメトリックでない場合にそれらを使用することの問題は何ですか?


あなたの場合の「アイテム」とは何ですか?(これが心理測定学と関係があるかどうかを尋ねています。これが当てはまる場合は、アイテムのクラスタリング、またはレベルのWの階層クラスター分析とテストの内部構造、MBR(1979)14を確認することをお勧めします。:57。)
chl

回答:


7

距離の要件は、階層的クラスタリングの方法によって異なります。単一の完全で平均的な方法では、距離が負ではなく対称である必要があります。病棟、重心、中央値法では、幾何学的に意味のある結果を生成するために、(二乗)ユークリッド(メトリックよりも狭い定義)距離が必要です。

(彼/彼女の距離マトリックスがユークリッドであるかどうかを確認するには、それを二重に中央に配置し(ここに私の返答を参照)、固有値を確認します。負の固有値が見つからない場合、距離はユークリッド空間に収束します。)


ありがとう。さらなる質問:三角形の不等式は、単一の完全で平均的な方法に当てはまる必要がありますか?(たとえば)距離が対称でない場合、これらのメソッドにどのような問題がありますか?(ありがとう!)
Tal Galili 2011

1
古典的な階層的クラスタリング手法、対称行列のみを取り込むことができます。AからBへの距離= BからAへの距離です。非対称を処理するための特別な他の方法が存在します(グーグルでもかまいません)。三角形の不等式については、あなたが言及する方法に必要な条件ではありません。(ただし、一般的な知恵では、「距離」は不等式との距離として見なされるため、欠落している場合は強制することを検討する価値があります。これを行うには、距離に小さな定数を繰り返し追加してチェックします。そして、その後、ユークリッド距離にすぐに到着します)
ttnphns

5

いいえ、距離はメトリックである必要はありません。たとえば、ウルトラメトリックにすることができます:

d(A,B)max(d(A,C),d(B,C))

クラスタリングアルゴリズムの連続するステップから取得されたウルトラメトリック距離は、このコンテキストで見たデンドログラムを使用して表すことができます。


ホンありがとう。一部のオブジェクトをhclustに変換するメソッドは、デンドログラムがウルトラメトリックであることを要求することを覚えています。いずれにしても、回答ありがとうございます。
Tal Galili 2011
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.