階層的クラスタリングのユークリッド距離測定で正規化する理由


19

明らかに、距離測度がユークリッド距離である階層的クラスタリングでは、データは最初に正規化または標準化されて、最大分散の共変量がクラスタリングを駆動しないようにする必要があります。どうしてこれなの?この事実は望ましくありませんか?

回答:


20

データに依存します。そして実際には、階層的なクラスタリングとは関係なく、距離関数自体とは関係ありません。

問題は、属性混在している場合です。

人に関するデータがあるとします。グラム単位の重量と靴のサイズ。靴のサイズの違いはごくわずかですが、体重の差(グラム)ははるかに大きくなります。数十の例を思いつくことができます。1 gと1靴のサイズの違いを比較することはできません。実際、この例では、\ sqrt {g \ cdot \ text {shoe-size}}物理単位を持つものを計算します!g靴のサイズ

通常、これらの場合、ユークリッド距離は意味をなしません。ただし、データを正規化すれば、多くの状況で機能する可能性があります。実際に意味をなさない場合でも、人間スケールの物理世界でのユークリッド距離など、「証明された」距離関数を持たない状況には良い発見的方法です。


あなたはちょうど私の考えに答えた、私は一人で座っていると思いますが、考えすぎは助けになります。
カールモリソン

13

データを標準化しない場合、大きな値の単位で測定された変数が計算された非類似度を支配し、小さな値の単位で測定された変数はほとんど寄与しません。

これをRで視覚化できます:

set.seed(42)
dat <- data.frame(var1 = rnorm(100, mean = 100000),
                  var2 = runif(100),
                  var3 = runif(100))
dist1 <- dist(dat)
dist2 <- dist(dat[,1, drop = FALSE])

dist1は、3つの変数すべてに基づいた100個の観測値dist2のユークリッド距離を含み、var1単独のユークリッド距離を含みます。

> summary(dist1)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.07351 0.77840 1.15200 1.36200 1.77000 5.30200 
> summary(dist2)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
0.000072 0.470000 0.963600 1.169000 1.663000 5.280000

距離の分布が類似してvar2おりvar3、とからの寄与がほとんどないことを示し、実際の距離は非常に類似していることに注意してください。

> head(dist1)
[1] 1.9707186 1.0936524 0.8745579 1.2724471 1.6054603 0.1870085
> head(dist2)
[1] 1.9356566 1.0078300 0.7380958 0.9666901 1.4770830 0.1405636

データを標準化する場合

dist3 <- dist(scale(dat))
dist4 <- dist(scale(dat[,1, drop = FALSE]))

次に、var13つの変数のみに基づく距離と3つの変数すべてに基づく距離に大きな変化があります。

> summary(dist3)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.09761 1.62400 2.25000 2.28200 2.93600 5.33100 
> summary(dist4)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
0.000069 0.451400 0.925400 1.123000 1.597000 5.070000 
> head(dist3)
[1] 2.2636288 1.7272588 1.7791074 3.0129750 2.5821981 0.4434073
> head(dist4)
[1] 1.8587830 0.9678046 0.7087827 0.9282985 1.4184214 0.1349811

階層クラスタリングはこれらの距離を使用するため、標準化することが望ましいかどうかは、所有するデータ/変数のタイプと、大きなものが距離を支配し、クラスタリングの形成を支配するかどうかによって決まります。これに対する答えは、ドメイン固有およびデータセット固有です。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.