標準と球状のk-meansクラスタリングアルゴリズムの主要な実装の違いは何かを理解したいと思います。
各ステップで、k-meansは要素ベクトルとクラスター重心間の距離を計算し、重心が最も近いクラスターにドキュメントを再割り当てします。次に、すべての重心が再計算されます。
球面k-meansでは、すべてのベクトルが正規化され、距離測定は余弦の非類似度です。
それだけですか、それとも何かありますか?
標準と球状のk-meansクラスタリングアルゴリズムの主要な実装の違いは何かを理解したいと思います。
各ステップで、k-meansは要素ベクトルとクラスター重心間の距離を計算し、重心が最も近いクラスターにドキュメントを再割り当てします。次に、すべての重心が再計算されます。
球面k-meansでは、すべてのベクトルが正規化され、距離測定は余弦の非類似度です。
それだけですか、それとも何かありますか?
回答:
質問は:
古典的なk-meansと球面k-meansの違いは何ですか?
クラシックK-means:
古典的なk-meansでは、クラスターの中心とクラスターのメンバー間のユークリッド距離を最小化しようとします。この背後にある直感は、クラスターの中心から要素の位置までの半径方向の距離は、そのクラスターのすべての要素で「同一」または「類似」でなければならないということです。
アルゴリズムは次のとおりです。
球面K-means:
球面k-meansでは、各クラスターの中心を設定して、コンポーネント間の角度を均一かつ最小にするようにします。直感は星を見ているようなものです。ポイントは互いに一定の間隔が必要です。その間隔は「コサイン類似性」として定量化するのが簡単ですが、データの空を横切って大きく明るい帯を形成する「天の川」銀河がないことを意味します。(はい、説明のこの部分でおばあちゃんと話をしようとしています。)
より技術的なバージョン:
ベクトル、向き付きの矢印としてグラフ化するもの、および固定長について考えてください。どこでも翻訳でき、同じベクトルにすることができます。ref
空間内のポイントの方向(基準線からの角度)は、線形代数、特にドット積を使用して計算できます。
テールが同じポイントになるようにすべてのデータを移動すると、角度で「ベクトル」を比較し、類似したものを単一のクラスターにグループ化できます。
わかりやすくするために、ベクトルの長さはスケーリングされているため、「目玉」で比較しやすくなっています。
あなたはそれを星座と考えることができます。単一のクラスター内の星は、ある意味で互いに近接しています。これらは私の星座と考えられている星座です。
一般的なアプローチの価値は、他の方法では幾何学的な次元を持たないベクトルを作成できることです。たとえば、tf-idfメソッドでは、ベクトルはドキュメント内の単語頻度です。追加された2つの「and」ワードは「the」に等しくありません。単語は非連続的で非数値です。それらは幾何学的な意味で物理的ではありませんが、幾何学的に構成し、幾何学的手法を使用してそれらを処理できます。球面k-meansは、単語に基づいてクラスタリングするために使用できます。
(2dランダム、連続)データは次のとおりです:
いくつかのポイント:
実際のプロセスを見て、私の「目玉」がいかに(悪い)ものだったかを見てみましょう。
手順は次のとおりです。
(その他の編集は近日公開予定)
リンク:
radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that cluster
単に不正確または鈍い音。でboth uniform and minimal the angle between components
、「コンポーネント」に定義されていません。少し厳密で拡張した場合、潜在的に素晴らしい答えを改善できることを願っています。