プロジェクトにLatent Dirichlet Allocationを使用したいのですが、gensimライブラリでPythonを使用しています。トピックを見つけた後、k-meansなどのアルゴリズムを使用してドキュメントをクラスター化したいと思います(理想的には、クラスターの重複に適切なものを使用したいので、どのような推奨も歓迎されます)。私は何とかトピックを取得しましたが、それらは次の形式です。
0.041 *大臣+ 0.041 *キー+ 0.041 *瞬間+ 0.041 *物議を醸す+ 0.041 *首相
クラスタリングアルゴリズムを適用し、誤りがあれば修正するには、tfidfまたはword2vecを使用して各単語を数値として表す方法を見つける必要があると思います。
たとえばリストからテキスト情報を「ストリップ」して、適切な乗算を行うためにそれらを元に戻す方法についてのアイデアはありますか?
たとえば、Ministerという単語のtfidfの重みが0.042である場合、同じトピック内の他の単語についても同様に、次のように計算する必要があります。
0.041 * 0.42 + ... + 0.041 * tfidf(Prime)そして結果をクラスタリングするために後で使用される結果を取得します。
お時間をいただきありがとうございます。