k-meansクラスターへのクラスラベルの割り当て


10

クラスタリングに関して非常に基本的な質問があります。重心を含むk個のクラスターを見つけた後、クラスター化したデータポイントのクラスを解釈するにはどうすればよいですか(各クラスターに意味のあるクラスラベルを割り当てます)。見つかったクラスターの検証については話していません。

ラベル付きのデータポイントの小さなセットが与えられて、これらのラベル付きポイントが属するクラスターを計算し、各クラスターが受け取るポイントのタイプと数に基づいてラベルを決定できますか?これはかなり明白なようですが、この方法でクラスターにラベルを割り当てることがどの程度標準的かはわかりません。

明確にするために、最初にクラスターを見つけるためにラベルを使用しない教師なしクラスタリングを実行したいと思います。次に、クラスターを見つけたので、いくつかのサンプルデータポイントのプロパティに基づいて、クラスターに意味のあるクラスラベルを割り当てます。


私はあなたの質問を理解するのか確信がありません:通常、どのk-meansアルゴリズムも各データポイントのクラスメンバーシップに関する情報を返す必要があります。あなたは実際のデータポイントまたは新しい観測について話しているのですか?
2013年

@chi私は、Riyazがクラスターにラベルを付ける名前を見つけることに懸念を抱いており、アプリオリにいくつかのポイントに名前を付けてから、クラスター内の名前付きポイントの優勢を考慮したアルゴリズムを使用してそれらのクラスターに名前を付けることについて話していると思います。
Glen_b-2013

2
@Riyaz、あなたの質問を理解するために、因子分析の次の類推を使用できますか?多くの場合、誰かが一連の変数を因子分析して、「一緒にぶら下がっている」ように見える変数のグループにクラスター化しますが、分析者は、各クラスターを構成する変数の性質について考えて、 /各クラスター(要素)何であるかについての考え方。それは本質的にあなたがここで得ているものですか?
ガン-モニカの回復

回答:


4

はい。あなたが提案するのは完全に標準であり、標準のk-meansソフトウェアが自動的に機能する方法です。k-meansの場合、各観測値(データポイント)と各クラスター平均(セントロイド)の間のユークリッド距離を計算し、観測値を最も類似したクラスターに割り当てます。次に、クラスターに分類された観測値の平均的な特性を、他のクラスターに関連する観測値の平均と比較して調べることにより、クラスターのラベルが決定されます。


3

kmeansオブジェクトの名前を見ると、「クラスター」オブジェクトがあることがわかります。これには、入力データと同じ順序で並べられたクラスラベルが含まれます。以下は、クラスターラベルをデータにバインドする簡単な例です。

x <- data.frame(X=rnorm(100, sd=0.3), Y=rnorm(100, mean=1, sd=0.3))

k <- kmeans(x, 2) 
names(k)
x <- data.frame(x, K=k$cluster)

# You can also directly return the clusters
x <- data.frame(x, K=kmeans(x, 2)$cluster)

0

クラスターのラベルは、クラスター内の多数サンプルのクラスに基づく場合があります。ただし、これは、クラスターの数がクラスの数と等しい場合にのみ当てはまります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.