標準および球面k-meansアルゴリズムの違い


28

標準と球状のk-meansクラスタリングアルゴリズムの主要な実装の違いは何かを理解したいと思います。

各ステップで、k-meansは要素ベクトルとクラスター重心間の距離を計算し、重心が最も近いクラスターにドキュメントを再割り当てします。次に、すべての重心が再計算されます。

球面k-meansでは、すべてのベクトルが正規化され、距離測定は余弦の非類似度です。

それだけですか、それとも何かありますか?

回答:


23

質問は:

古典的なk-meansと球面k-meansの違いは何ですか?

クラシックK-means:

古典的なk-meansでは、クラスターの中心とクラスターのメンバー間のユークリッド距離を最小化しようとします。この背後にある直感は、クラスターの中心から要素の位置までの半径方向の距離は、そのクラスターのすべての要素で「同一」または「類似」でなければならないということです。

アルゴリズムは次のとおりです。

  • クラスターの数を設定します(別名クラスター数)
  • 空間内の点をクラスターインデックスにランダムに割り当てて初期化する
  • 収束するまで繰り返す
    • 各ポイントについて、最も近いクラスターを見つけ、ポイントをクラスターに割り当てます
    • 各クラスターについて、メンバーポイントの平均を見つけ、センターの平均を更新します
    • エラーはクラスターの距離のノルムです

球面K-means:

球面k-meansでは、各クラスターの中心を設定して、コンポーネント間の角度を均一かつ最小にするようにします。直感は星を見ているようなものです。ポイントは互いに一定の間隔が必要です。その間隔は「コサイン類似性」として定量化するのが簡単ですが、データの空を横切って大きく明るい帯を形成する「天の川」銀河がないことを意味します。(はい、説明のこの部分でおばあちゃんと話をしようとしています。)

より技術的なバージョン:

ベクトル、向き付きの矢印としてグラフ化するもの、および固定長について考えてください。どこでも翻訳でき、同じベクトルにすることができます。ref

ここに画像の説明を入力してください

空間内のポイントの方向(基準線からの角度)は、線形代数、特にドット積を使用して計算できます。

テールが同じポイントになるようにすべてのデータを移動すると、角度で「ベクトル」を比較し、類似したものを単一のクラスターにグループ化できます。

ここに画像の説明を入力してください

わかりやすくするために、ベクトルの長さはスケーリングされているため、「目玉」で比較しやすくなっています。

ここに画像の説明を入力してください

あなたはそれを星座と考えることができます。単一のクラスター内の星は、ある意味で互いに近接しています。これらは私の星座と考えられている星座です。

ここに画像の説明を入力してください

一般的なアプローチの価値は、他の方法では幾何学的な次元を持たないベクトルを作成できることです。たとえば、tf-idfメソッドでは、ベクトルはドキュメント内の単語頻度です。追加された2つの「and」ワードは「the」に等しくありません。単語は非連続的で非数値です。それらは幾何学的な意味で物理的ではありませんが、幾何学的に構成し、幾何学的手法を使用してそれらを処理できます。球面k-meansは、単語に基づいてクラスタリングするために使用できます。

(2dランダム、連続)データは次のとおりです:

[バツ1y1バツ2y2groあなたはp00.80.20130.7316B0.80.10.95240.3639A0.20.30.20610.1434C0.80.10.47870.153B0.70.20.72760.3825A0.90.90.7480.6793C]

いくつかのポイント:

  • ドキュメントの長さの違いを考慮して、ユニット球体に投影します。

実際のプロセスを見て、私の「目玉」がいかに(悪い)ものだったかを見てみましょう。

手順は次のとおりです。

  1. (問題で暗黙的)原点でベクトルの尾部を接続する
  2. ユニット球体への投影(ドキュメントの長さの違いを考慮するため)
  3. クラスタリングを使用して、「コサインの非類似度」を最小化する

J=dバツpc
ここで
dバツp=1cosバツp=バツpバツp

(その他の編集は近日公開予定)

リンク:

  1. http://epub.wu.ac.at/4000/1/paper.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
  6. https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf

テキストファイルでは、私が「差分」機能ということ整列文字だと思う、または意味のクラスタリングを向上させるために、「クローズ一緒に」テキストの便利な前処理であるかもしれない、重み変化を示している
EngrStudent -復活モニカ

私は#1(のリンクで「禁断のアクセス」を取得sci.utah.edu/~weiliu/research/clustering_fmri/...
デヴィッド・ドリア

@David-私も。常に動いているのは...インターネットですか?ちょっと待ってください。
EngrStudent-モニカの復活

1
少しためらった後、私は現在この答えに反対票を投じることにしました。それはあまりにも「おばあちゃん」の説明であるだけでなく、不正確です。radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that cluster単に不正確または鈍い音。でboth uniform and minimal the angle between components、「コンポーネント」に定義されていません。少し厳密で拡張した場合、潜在的に素晴らしい答えを改善できることを願っています。
ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.