非距離ベースのクラスタリングアルゴリズムはありますか？

14

K-meansやその他の関連アルゴリズムでは、クラスタリングはポイント間の距離の計算に基づいているようです。それなしで動作するものはありますか？

— user154510
ソース

2

ポイントの類似性または「近さ」を定量化する何らかの方法なしで「クラスタリング」とはどういう意味ですか？

— whuber

2

以下の@Timの答えはとても良いです。それがあなたを助けたならば、あなたはそれを支持すること、そして /またはそれを受け入れることを検討したいかもしれません。「ありがとう」と言うのに良い方法です。彼の考えを拡張して、潜在クラス分析があります。これは、カテゴリーデータに同様のアプローチを適用します。FMMへのノンパラメトリックアプローチは、多変量カーネル密度推定の高さを介して使用できます。詳細については、「ノンパラメトリック密度推定によるクラスタリング：RパッケージpdfCluster（pdf）」を参照してください。

— グング-モニカの復職

25

そのような方法の1つの例は、クラスタリングに使用される有限混合モデル（たとえばhereまたはhere）です。FMMでは、ディストリビューション（考えるあなたの変数の）混合して分布（）： $f$ $X$ $K$ $f_1,...,f_k$

f (x, ϑ) = \sum_{k = 1}^{K} π_{k} f_{k} (x, ϑ_{k})

$f(x, \vartheta) = \sum^K_{k=1} \pi_k f_k(x, \vartheta_k)$

ここで、パラメータのベクトルであるとの割合である「混合物で番目分布、パラメータ（またはパラメータ）であります分布。 $\vartheta$ $\vartheta = (\pi', \vartheta_1', ..., \vartheta_k')'$ $\pi_k$ $k$ $\vartheta_k$ $f_k$

離散データの特定のケースは、次のように定義される潜在クラス分析（たとえば、ここ）です。

P （ バツ 、 k ） = P （ k ） P （ バツ | k ）

$P(x, k) = P(k) P(x|k)$

ここで、潜在クラス観察する確率であり（すなわち、）、観察する確率である値との確率であり、クラスにある。 $P(k)$ $k$ $\pi_k$ $P(x)$ $x$ $P(x|k)$ $x$ $k$

通常、FMMとLCAの両方でEMアルゴリズムが推定に使用されますが、ベイジアンアプローチも可能ですが、モデルの識別やラベルの切り替えなどの問題のためにもう少し要求が厳しくなります（Xi'anのブログなど）。

そのため、距離の尺度はなく、データの構造（分布）を定義する統計モデルがあります。そのため、このメソッドの他の名前は「モデルベースのクラスタリング」です。

FMMに関する2冊の本を確認してください。

McLachlan、G.＆Peel、D.（2000）。有限混合モデル。ジョン・ワイリー＆サンズ。
Frühwirth-Schnatter、S.（2006）。有限混合モデルとマルコフスイッチングモデル。スプリンガー。

FMMを使用する最も一般的なクラスタリングパッケージの1つは、Rで実装されていますmclust（こちらまたはこちらをご覧ください）。ただし、より複雑なFMMも可能です。たとえば、パッケージとそのドキュメントを確認してください。LCAには、R poLCAパッケージがあります。flexmix

— ティム
ソース

さまざまなユースケースが何であるかについて十分に理解していますか？

— シャドウトーカー14

たとえば、「medoidの周りを分割する代わりに、これをいつ使用する必要がありますか？」とにかくとてもいい答え

— shadowtalker 14

1

@cavemanは、これが単なる表記上の慣習であると指摘しています。これはベクトルのベクトルです。それだけです。

— ティム

1

@cavemanある

異なる分布

が混合物の中にあり、それぞれに独自のパラメーターがあります（パラメーターのベクトルがある理由です）。

k

$k$

f_{1}, . . ., f_{k}

$f_1,...,f_k$

— ティム

1

@cavemanの最も典型的なケースは、異なる平均値とsd を持つ

正規分布を持っていることです。しかし、それらは異なる場合があります。cran.r-project.org/ web / packages / flexmix / vignettes /…の 3.1の例を参照してください。これは、2つの異なる回帰モデルが混在していることを示しています。

k

$k$

— ティム

7

K-meansは「実際の」距離ベースではありません。分散を最小化します。（ただし、分散ユークリッド距離の2乗。したがって、すべてのポイントは、ユークリッド距離によっても最も近い重心に割り当てられます）。 $\sim$

グリッドベースのクラスタリングアプローチがたくさんあります。距離を計算しないのは、それによって2次ランタイムが生成されることが多いためです。代わりに、データを分割し、グリッドセルに集約します。しかし、そのようなアプローチの背後にある直感は通常、距離と非常に密接に関連しています。

COOLCATやSTUCCOなどのカテゴリデータには、多数のクラスタリングアルゴリズムがあります。このようなデータでは距離を使用するのは簡単ではありません（ワンホットエンコーディングはハックであり、特に意味のある距離は得られません）。しかし、これらのアルゴリズムを使用している人はいません。

グラフにはクラスタリングのアプローチがあります。ただし、クリークまたはニアクリークの検出やグラフの色付けなどの古典的なグラフの問題に縮小するか、距離ベースのクラスタリングに密接に関連しています（重み付きグラフがある場合）。

DBSCANのような密度ベースのクラスタリングには別の名前があり、距離の最小化に焦点を合わせていません。ただし、「密度」は通常、距離に関して指定されるため、技術的にはこれらのアルゴリズムは距離ベースまたはグリッドベースのいずれかです。

あなたが省略したあなたの質問の重要な部分はあなたのデータは何ですか？

— QUIT--Anony-Mousseを持っています
ソース

1

+1：クラスタリングアルゴリズムが暗黙的（おそらく）一般化された「距離」または「類似性」の感覚をどのように使用するかを示し、そのような多くのアルゴリズムの調査を提供していることを感謝します。

— whuber

「距離ベース」とは、分散を含む類似性メトリックを意味すると思います。

— en1

1

なぜ分散は類似性の指標になるのでしょうか？これは、ユークリッド距離の平方に関連しています。しかし、任意の距離sと同等ではありません。

— QUITがあります--Anony-Mousse

2

以前の良い回答に加えて、ディリクレ混合モデルとベイジアンベースの階層ディリクレ過程モデルを検討することをお勧めします。クラスターの最適な数を決定するためのアプローチと方法のかなり包括的で一般的な概要については、StackOverflowでこの優れた回答を参照してください：https : //stackoverflow.com/a/15376462/2872891。

— アレクサンドル・ブレフ
ソース

2

純粋に差別的なアプローチは、Gomes et alによる「正規化された情報の最大化」です。それに関係する類似性/距離の概念はまったくありません。

考え方は、ポイントをビンに入れるモデルのようなロジスティック回帰を行うことです。ただし、クラスラベルの対数尤度の形式を最大化するようにトレーニングする代わりに、目的関数はポイントを異なるクラスターに入れるものです。

$\lambda$

非線形クラスタリングのカーネルメソッドまたはニューラルネットワークへの拡張は簡単です。

— バイエルジ
ソース