良い方法でクラスターをプロットする方法は?


7

大規模なテキストデータセットがクラスター化されています。各クラスターは、それに属するベクトル化されたテキストの重心、テキストの数、作成日、およびその他のパラメーターによって表されます。クラスタをn次元空間にプロットできません。どのオプションがありますか?


holoviewsを検索
Aditya

そのよだれかけは素晴らしい@Adityaです!
フェデリコカッチャ

同じデータシェーダーを使用したサンプルプロット.. datascience.stackexchange.com/a/28659/35644 @Federico Caccia
Aditya

回答:


3

T-SNEは、別の回答の記事では言及されていない別の次元削減アルゴリズムです。データセットの一部の埋め込みをトレーニングした場合、非常に高次元のデータに使用されます。ここで参照。Python標準ライブラリはこちら

乾杯


2

いくつかのオプション:

さらにもっと...


1

次元削減アルゴリズム(主成分分析など)を使用して、データの次元数を2または3に削減し、削減された変数を使用して散布図を実行し、それらが属するクラスターに従って色分けできます。で、このブログ投稿同様のことが行われています。


私は何千もの次元を持っているので、PCAは情報の損失が多すぎる可能性があります。そして、私は各クラスターの重心をプロットしたいだけです。最良の方法は、作成時間と別のフィーチャをプロットし、このクラスター内の要素の量に比例した半径をポイント(バブル)に与えることだと思います。
フェデリコカッチャ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.