非距離ベースのクラスタリングアルゴリズムはありますか?


14

K-meansやその他の関連アルゴリズムでは、クラスタリングはポイント間の距離の計算に基づいているようです。それなしで動作するものはありますか?


2
ポイントの類似性または「近さ」を定量化する何らかの方法なしで「クラスタリング」とはどういう意味ですか?
whuber

2
以下の@Timの答えはとても良いです。それがあなたを助けたならば、あなたはそれを支持すること、そして /またはそれを受け入れることを検討したいかもしれません。「ありがとう」と言うのに良い方法です。彼の考えを拡張して、潜在クラス分析があります。これは、カテゴリーデータに同様のアプローチを適用します。FMMへのノンパラメトリックアプローチは、多変量カーネル密度推定の高さを介して使用できます。詳細については、「ノンパラメトリック密度推定によるクラスタリング:RパッケージpdfClusterpdf)」を参照してください。
グング-モニカの復職

回答:


25

そのような方法の1つの例は、クラスタリングに使用される有限混合モデル(たとえばhereまたはhere)です。FMMでは、ディストリビューション(考えるあなたの変数の)Xを混合してKの分布(F 1F K):fXKf1,...,fk

f(x,ϑ)=k=1Kπkfk(x,ϑk)

ここで、パラメータのベクトルであるθ = π 'θ ' 1θ ' K'π kはの割合であるK「混合物で番目分布θ kは、パラメータ(またはパラメータ)でありますF k個の分布。ϑϑ=(π,ϑ1,...,ϑk)πkkϑkfk

離散データの特定のケースは、次のように定義される潜在クラス分析(たとえば、ここ)です。

Pバツk=PkPバツ|k

ここで、潜在クラス観察する確率であり、K(すなわち、π kは)、Pはxは観察する確率であるXの値とP Xは| K の確率であり、XクラスにあるKPkkπkPバツバツPバツ|kバツk

通常、FMMとLCAの両方でEMアルゴリズムが推定に使用されますが、ベイジアンアプローチも可能ですが、モデルの識別やラベルの切り替えなどの問題のためにもう少し要求が厳しくなります(Xi'anのブログなど)。

そのため、距離の尺度はなく、データの構造(分布)を定義する統計モデルがあります。そのため、このメソッドの他の名前は「モデルベースのクラスタリング」です。

FMMに関する2冊の本を確認してください。

FMMを使用する最も一般的なクラスタリングパッケージの1つは、R実装されていますmclustこちらまたはこちらをご覧ください)。ただし、より複雑なFMMも可能です。たとえば、パッケージとそのドキュメントを確認してください。LCAには、R poLCAパッケージがありますflexmix


さまざまなユースケースが何であるかについて十分に理解していますか?
シャドウトーカー14

たとえば、「medoidの周りを分割する代わりに、これをいつ使用する必要がありますか?」とにかくとてもいい答え
shadowtalker 14

1
@cavemanは、これが単なる表記上の慣習であると指摘しています。これはベクトルのベクトルです。それだけです。
ティム

1
@cavemanある異なる分布F 1f kが混合物の中にあり、それぞれに独自のパラメーターがあります(パラメーターのベクトルがある理由です)。k f1,...,fk
ティム

1
@cavemanの最も典型的なケースは、異なる平均値とsd を持つ正規分布を持っていることです。しかし、それらは異なる場合があります。cran.r-project.org/ web / packages / flexmix / vignettes /…の 3.1の例を参照してください。これは、2つの異なる回帰モデルが混在していることを示しています。k
ティム

7

K-meansは「実際の」距離ベースではありません。分散を最小化します。(ただし、分散ユークリッド距離の2乗。したがって、すべてのポイント、ユークリッド距離によっても最も近い重心に割り当てられます)。

グリッドベースのクラスタリングアプローチがたくさんあります。距離を計算しないのは、それによって2次ランタイムが生成されることが多いためです。代わりに、データを分割し、グリッドセルに集約します。しかし、そのようなアプローチの背後にある直感は通常、距離と非常に密接に関連しています。

COOLCATやSTUCCOなどのカテゴリデータには、多数のクラスタリングアルゴリズムがあります。このようなデータでは距離を使用するのは簡単ではありません(ワンホットエンコーディングはハックであり、特に意味のある距離は得られません)。しかし、これらのアルゴリズムを使用している人はいません。

グラフにはクラスタリングのアプローチがあります。ただし、クリークまたはニアクリークの検出やグラフの色付けなどの古典的なグラフの問題に縮小するか、距離ベースのクラスタリングに密接に関連しています(重み付きグラフがある場合)。

DBSCANのような密度ベースのクラスタリングには別の名前があり、距離の最小化に焦点を合わせていません。ただし、「密度」は通常、距離に関して指定されるため、技術的にはこれらのアルゴリズムは距離ベースまたはグリッドベースのいずれかです。

あなたが省略したあなたの質問の重要な部分はあなたのデータですか?


1
+1:クラスタリングアルゴリズムが暗黙的(おそらく)一般化された「距離」または「類似性」の感覚をどのように使用するかを示し、そのような多くのアルゴリズムの調査を提供していることを感謝します。
whuber

「距離ベース」とは、分散を含む類似性メトリックを意味すると思います。
en1

1
なぜ分散は類似性の指標になるのでしょうか?これは、ユークリッド距離の平方に関連しています。しかし、任意の距離sと同等ではありません。
QUITがあります--Anony-Mousse


2

純粋に差別的なアプローチは、Gomes et alによる「正規化された情報の最大化」です。それに関係する類似性/距離の概念はまったくありません。

考え方は、ポイントをビンに入れるモデルのようなロジスティック回帰を行うことです。ただし、クラスラベルの対数尤度の形式を最大化するようにトレーニングする代わりに、目的関数はポイントを異なるクラスターに入れるものです。

λ

非線形クラスタリングのカーネルメソッドまたはニューラルネットワークへの拡張は簡単です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.