2Dでの多次元データ(LSI)の視覚化


11

潜在的なセマンティックインデックスを使用して、ドキュメント間の類似点を見つけています(JMSに感謝します

次元を削減した後、ドキュメントをクラスターにグループ化するためにk平均クラスタリングを試しましたが、これは非常にうまく機能します。しかし、少し先に進んで、ドキュメントをノードのセットとして視覚化します。ここで、任意の2つのノード間の距離は、類似性に反比例します(非常に類似しているノードは互いに接近しています)。

データが2次元を超えるため、類似度行列を2次元のグラフに正確に縮小できないことに不思議に思います。だから私の最初の質問:これを行う標準的な方法はありますか?

データを2次元に削減してから、それらをX軸とY軸としてプロットできますか?それは、100から200までのドキュメントのグループに対して十分でしょうか?これが解決策である場合、データを最初から2次元に削減する方が良いですか、それとも多次元データから2つの「最良の」次元を選択する方法はありますか?

私はPythonとgensimライブラリを使用しています。


なぜ次元数を減らす必要があるのですか?必要なグラフを作成するには、エッジの長さがドキュメント間の距離に比例するエッジのみが必要です。k-meansクラスタリングに使用されるメトリックから、すでにそれを持っています。
アマン

2D平面(グラフ)上の2つ以上のドキュメント間の類似性を表示するために機能しない@Aman。確かに、k-means距離に基づく間隔でポイントAとBをプロットできます。しかし、AとBまでの距離に基づいてポイントCをプロットする必要がある場合、通常、すべてのペアワイズ関係を満たす2D空間内のポイントはありません。
ジェフ

回答:


7

S=XXSM=VΛV=XXX=VΛ1/2

ΛX

MDSで利用できるコードはたくさんあります(そして、scipyにいくつかのバージョンがない場合は驚かれます)。いずれにせよ、あなたが設定したPythonのSVDルーチンにアクセスできる限り。


1
これにはLDAの方が適していると思います。PCA-あなたがSVDを通過するとき-はOPの後にあるクラスター(クラス)差別情報を保持しません。
Zhubarb

0

あなたを助けることができるggobiと呼ばれるソフトウェアの一部があります。多次元の疑似空間を探索できます。それは主にデータ探索のためですが、そのインターフェースは非常に友好的で、「それだけで動作します」!

CSV形式(RIでは通常、デフォルトのパラメーターを指定してwrite.csvを使用するだけ)またはXMLファイル(この形式を使用すると、より詳細に制御できます。通常、テーブルをCSVに保存してから、ggobiを使用してXMLにエクスポートし、手動で編集します。たとえば、いくつかの要因の順序を変更します)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.