k-meansと他の指標の併用


8

したがって、これは以前に尋ねられたことに気づきます。たとえば、さまざまな距離メトリックのクラスター分析に関連するユースケースは何ですか?しかし、私は文献で提案されているものとは多少矛盾する答えが可能であることを発見しました。

最近、他のメトリックでkmeansアルゴリズムを使用することについて言及している2つの論文を読んだことがあります。たとえば、文字列間の距離の編集や、分布間の「地球の移動距離」などです。これらの論文は、特にポイントのセットの平均を計算する場合、方法を指定せずに他のメトリックでkmeansを使用することについて言及していることを考えると、おそらく私が選択していない、これに対処するためのいくつかの「標準」方法があることを示唆しています上に。

たとえば、k-meansアルゴリズムをより高速に実装できるこのペーパーを見てください。イントロのパラグラフ4からの引用では、著者は彼のアルゴリズムを「任意のブラックボックス距離メトリックで使用できる」と述べ、次のパラグラフでは具体的な例として編集距離に言及しています。しかし、彼のアルゴリズムは一連の点の平均を計算し、これが他のメトリックスの結果にどのように影響するかについては言及していません(平均が編集距離でどのように機能するかについては特に困惑しています)。

この他のペーパーでは、テキサスホールデム抽象化のためにk-meansを使用してポーカーハンドをクラスター化する方法について説明します。左の列の下部のページ2にジャンプする場合、著者は「そして、k-meansを使用して、ヒストグラムの各ペア間のEarth Mover Distanceを距離メトリックとして使用して、目的のクラスター数で抽象化を計算します。

私はこれらの論文を説明してくれる人を本当に探しているわけではありませんが、他の測定基準でk-meansを使用するための標準的な方法がありませんか?アースムーバーの距離を使用した標準的な平均化はヒューリスティックに機能するように見えますが、編集距離は金型にまったく適合しないようです。私は誰かが与えることができるどんな洞察にも感謝します。

(編集):私は先に進み、アースムーバーの距離(ポーカーペーパーにあるものと同様)を使用して分布ヒストグラムでk平均法を試してみましたが、うまく機能しているようで、出力したクラスターは私のユースケースにかなり適しているように見えました。平均化では、ヒストグラムをベクトルとして扱い、通常の方法で平均化しました。私が気づいたことの1つは、平均までの距離のすべてのポイントの合計が常に単調に減少するとは限らないことです。しかし実際には、単調な問題にもかかわらず、10回以内の反復でローカルの最小値に収まります。これは彼らが2番目の論文で行ったものであると仮定します。残っている唯一の問題は、編集距離のようなものを使用する場合、一体どのように平均するのでしょうか。


2番目のリンクは1番目のリンクを複製します。
ttnphns 2014

Scooby興味深いリンクをありがとう。最初の論文(その場で調べたところです)では、メトリックの三角形の不等式の考え方に基づいた(おそらく)新しいクラスタリングの方法/アルゴリズムについて説明しています。これは、k-Means法/アルゴリズムという用語で人々が意味するものではありません。ですから、私にとって、記事のタイトルはやや誤解を招きやすいものです。著者が主張するように、提案された「三角形不等式」クラスタリング手法は、ユークリッド距離計量適用されると、「K平均」手法が与えるものと同一の結果をもたらすはずです。
ttnphns 2014

厳密な意味で、K平均法は(1)(数値)特徴入力行列によるオブジェクトを意味します。(2)オブジェクトとクラスター中心(クラスター平均)の間のユークリッド距離を計算することによる、クラスターへのオブジェクトの反復的な再割り当て。上記のすべてまたはその代わり-たとえば、ペアワイズ距離のマトリックスを分析したり、ユークリッド以外のメトリックを使用したり、平均以外の他の形式の中心を計算したりするなど-K平均を拡張または変更して、元の感覚。
ttnphns 14

1
@ttnphns(2)に同意しません。これはロイズアルゴリズムであり、一般的なk-meansではありません。一般的にK平均法とは、平方和パーティションの目的の最小化を意味します。あなたが説明したのは、一般的な期待値最大化(EM)パターンです。Lloydsは最小二乗モデルのEMパターンです。
QUITあり-Anony-Mousse 2014年

回答:


4

別のメトリックを使用すると、k-meansが必然的に爆発して失敗するわけではありません。

多くの場合、それが返されますいくつかの結果を。ちょうどされ、それが最適な重心またはパーティション見つけるという保証はないので、他のメトリックとを平均は距離を最小にするために適切ではないかもしれません。

地球の発動機の距離を考慮してください。3つのベクトルを考える

3 0 0 0 0
0 0 3 0 0
0 0 0 0 3

算術平均は

1 0 1 0 1

EMD距離は6、4、6(合計16)です。アルゴリズムが代わりに使用した場合

0 0 3 0 0

EMD距離は6、0、6でした。つまり、より良い(合計12)。

算術平均はEMDを最小化せず、k平均(アーティマティック平均を使用)を使用した結果は最適な代表を生成しません。

編集距離についても同様です。


あなたがEMD距離をどのように計算したかを私がフォローしているかどうかはわかりません。私の理解では、ある機能から別の機能に移動するための重みを持つ遷移行列が必要です。
sffc 2015年

1
元の動機から、そのような標準的な行列を選択します:移動する地球、コスト=距離。
QUITあり--Anony-Mousse 2015

2

K平均の主な目的はクラスター内分散の合計を最小化することであり、クラスター内分散はユークリッド距離の合計とまったく同じ方法で計算されるため、K平均はユークリッド距離と組み合わせて使用​​するのに適していますクラスタ内のすべてのポイントからクラスタの重心までの距離。以下のように他の回答が指摘、アルゴリズムのみ(さえ極小にする場合)収束することが保証されている重心更新ステップと、データ点再割当てステップの両方が同じn次元ユークリッド空間で行われている場合

また、平均が全体の分散を最小化する必要がある場合に使用するのに最適な推定量であることが示されています(そして私はこれを説明できないため、ここにリンクを挿入しました)。したがって、ユークリッド距離に結びつくk-meansは2つあります。アルゴリズムは、一連のデータポイントの平均を計算する何らかの方法をとらなければなりません(したがって、k- 平均の名前です)が、この平均は意味があり、収束を保証するだけですユークリッド距離を使用してデータポイントを最も近い重心に再割り当てする場合のクラスタリングプロセス。

この記事のように、他の距離測定でk平均を使用することもできます。著者は、マンハッタン、ユークリッド、チェビシェフの距離の一般化であるミンコフスキー距離でアルゴリズムを使用します。ただし、これらの場合、収束は保証されないため、結果として、アルゴリズムの将来の反復では、実際には前の反復よりも全体の分散が大きくなることが予想されます。

それでも、上記のペーパーで示したように、収束が保証されていなくても、k-meansは他の距離測定を使用することにより、いくつかのシナリオでより良いクラスタリング結果を達成できます。たとえばノルムを取り、ユークリッド距離がノルムであり、マンハッタン距離がノルムであることを知っている場合、疎距離行列の場合、k平均ノルムと組み合わせて使用​​すると、ユークリッド距離を使用する場合よりも高いクラスタリング精度が得られます。LpL 1 L P 0<P1L2L1Lp0<p1

最後に、ユークリッド距離に何らかの方法で変換できるいくつかの類似性測定値があることを指摘するのは興味深いことです。つまり、この類似性測定値をk平均と組み合わせて使用​​すると、同様の結果。その一例がコサイン類似度です。


1
p <1のLpは標準ではありません。
QUITあり-Anony-Mousse 2015

1

リンクされた論文がこれを行っているかどうかはわかりませんが、カーネルトリックを使用して非ユークリッド距離関数でk平均を行うことは可能です。つまり、ユークリッド距離が使用したい距離関数に対応する高次元(しばしば無限次元)の空間に入力を暗黙的にマッピングし、そこでアルゴリズムを実行します。特にロイドのk平均アルゴリズムでは、クラスターにポイントを簡単に割り当てることができますが、クラスターの中心を暗黙的に表し、入力空間でそれらの表現を見つけるには、フレシェ平均を見つける必要があります。次のペーパーでは、アルゴリズムについて説明し、それをスペクトルクラスタリングに関連付けます。

I.ディロン、Y。グアン、およびB.クリス。カーネルk-means、スペクトルクラスタリング、正規化カット。KDD 2005。

編集距離アースムーバーの距離に基づくカーネルがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.