したがって、これは以前に尋ねられたことに気づきます。たとえば、さまざまな距離メトリックのクラスター分析に関連するユースケースは何ですか?しかし、私は文献で提案されているものとは多少矛盾する答えが可能であることを発見しました。
最近、他のメトリックでkmeansアルゴリズムを使用することについて言及している2つの論文を読んだことがあります。たとえば、文字列間の距離の編集や、分布間の「地球の移動距離」などです。これらの論文は、特にポイントのセットの平均を計算する場合、方法を指定せずに他のメトリックでkmeansを使用することについて言及していることを考えると、おそらく私が選択していない、これに対処するためのいくつかの「標準」方法があることを示唆しています上に。
たとえば、k-meansアルゴリズムをより高速に実装できるこのペーパーを見てください。イントロのパラグラフ4からの引用では、著者は彼のアルゴリズムを「任意のブラックボックス距離メトリックで使用できる」と述べ、次のパラグラフでは具体的な例として編集距離に言及しています。しかし、彼のアルゴリズムは一連の点の平均を計算し、これが他のメトリックスの結果にどのように影響するかについては言及していません(平均が編集距離でどのように機能するかについては特に困惑しています)。
この他のペーパーでは、テキサスホールデム抽象化のためにk-meansを使用してポーカーハンドをクラスター化する方法について説明します。左の列の下部のページ2にジャンプする場合、著者は「そして、k-meansを使用して、ヒストグラムの各ペア間のEarth Mover Distanceを距離メトリックとして使用して、目的のクラスター数で抽象化を計算します。
私はこれらの論文を説明してくれる人を本当に探しているわけではありませんが、他の測定基準でk-meansを使用するための標準的な方法がありませんか?アースムーバーの距離を使用した標準的な平均化はヒューリスティックに機能するように見えますが、編集距離は金型にまったく適合しないようです。私は誰かが与えることができるどんな洞察にも感謝します。
(編集):私は先に進み、アースムーバーの距離(ポーカーペーパーにあるものと同様)を使用して分布ヒストグラムでk平均法を試してみましたが、うまく機能しているようで、出力したクラスターは私のユースケースにかなり適しているように見えました。平均化では、ヒストグラムをベクトルとして扱い、通常の方法で平均化しました。私が気づいたことの1つは、平均までの距離のすべてのポイントの合計が常に単調に減少するとは限らないことです。しかし実際には、単調な問題にもかかわらず、10回以内の反復でローカルの最小値に収まります。これは彼らが2番目の論文で行ったものであると仮定します。残っている唯一の問題は、編集距離のようなものを使用する場合、一体どのように平均するのでしょうか。