潜在的なセマンティックインデックスを使用して、ドキュメント間の類似点を見つけています(JMSに感謝します)
次元を削減した後、ドキュメントをクラスターにグループ化するためにk平均クラスタリングを試しましたが、これは非常にうまく機能します。しかし、少し先に進んで、ドキュメントをノードのセットとして視覚化します。ここで、任意の2つのノード間の距離は、類似性に反比例します(非常に類似しているノードは互いに接近しています)。
データが2次元を超えるため、類似度行列を2次元のグラフに正確に縮小できないことに不思議に思います。だから私の最初の質問:これを行う標準的な方法はありますか?
データを2次元に削減してから、それらをX軸とY軸としてプロットできますか?それは、100から200までのドキュメントのグループに対して十分でしょうか?これが解決策である場合、データを最初から2次元に削減する方が良いですか、それとも多次元データから2つの「最良の」次元を選択する方法はありますか?
私はPythonとgensimライブラリを使用しています。