無次元データのクラスタリングアルゴリズム


12

私は数千点のデータセットと任意の2点間の距離を測定する手段を持っていますが、データ点には次元がありません。このデータセット内のクラスター中心を見つけるアルゴリズムが必要です。データにはディメンションがないため、クラスターセンターは複数のデータポイントと許容値で構成され、クラスター内のメンバーシップはクラスターセンター内のすべてのデータポイントまでのデータポイントの距離の平均によって決定される可能性があると思います。

この質問によく知られている解決策がある場合はご容赦ください。この種の問題についてはほとんど知りません!私の(非常に限られた)研究では、次元データのクラスタリングアルゴリズムのみが判明しましたが、明らかな何かを見逃した場合は事前に謝罪します。

ありがとうございました!


なぜ非次元性がこの問題を特別なものにしているのですか?
ラファエル

1
クラスタリング用に見たいくつかのアルゴリズム(実際には単なるk-means)では、シードとしてランダムデータポイントを生成する必要がありますが、これは無次元データでは不可能です。そのため、特別な要件は、クラスターの中心を既存のデータポイントのセット(おそらくは重み付け)で表す必要があるということです。
paintcan

回答:


15

kkkk

k

これらの問題はどちらも一般にNP困難であり、任意の要因内で近似するのは困難です。メトリックであるという条件を落とすと、物事は近似可能性の点でさらに悪化することに注意してください。

k

最終的に、ほとんどのクラスタリングの問題と同様に、最終的な選択はアプリケーション、データサイズなどに依存します。


3
迅速かつ明確な概要をありがとう。あなたが私の質問に答えたかどうかを判断するには、少なくとも数日かかります。私の問題を十分に理解する前に学ぶべきことがたくさんあるようです:)
paintcan

5

相関クラスタリングもあります。これは、アイテムが同じクラスターに属しているか、異なるクラスターに属しているかを示すアイテムのペアごとに入力情報を持っています。


はい、それは別の良い例です。そしてもちろん、ウォーレンはこれに関する専門家です!OPの入力が+/-であったかどうか、またはしきい値処理によって変換できるかどうかはわかりません。もしそうなら、これは間違いなく実行可能なオプションです。
スレシュヴェンカト

5

良好な経験的パフォーマンスを求めている場合、アフィニティ伝播アルゴリズムは通常、k中央値よりもうまく機能します。いくつかの言語で利用可能なコードがあり、アルゴリズムの詳細については、http//www.psi.toronto.edu/index.php?q = affinity%20propagationを参照してください。

sc

sccs


5

あなたの質問は、適切な計算時間を持つアルゴリズムを探していることを暗示しているようです。頂点(またはポイント)のサイズを考えると、データの重み付きグラフ表現を作成し、マルコフクラスターアルゴリズム(MCL)を使用してグラフをクラスター化することになります。

http://www.micans.org/mcl/

MCLは、重み付けされたグラフと重み付けされていないグラフのランダムウォークに基づいて、密なサブグラフを見つけます。大きなグラフを処理することができ、多くのよく知られた、よく使用されるバイオインフォマティクスプログラム(BLASTなど)で使用されています。-バウチャー


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.