テキストクラスタリングの問題に取り組んでいます。データには複数の文が含まれています。短いテキストで高精度に達する優れたアルゴリズムはありますか?
良い参考資料を提供できますか?
KMeans、スペクトルクラスタリングなどのアルゴリズムは、この問題に対してうまく機能しません。
テキストクラスタリングの問題に取り組んでいます。データには複数の文が含まれています。短いテキストで高精度に達する優れたアルゴリズムはありますか?
良い参考資料を提供できますか?
KMeans、スペクトルクラスタリングなどのアルゴリズムは、この問題に対してうまく機能しません。
回答:
それは主に、どれだけの「最先端」(SOTA)を望むか、どれだけ深く行きたいか(意図した...)に依存します。
word2vec、Glove、またはfastTextで提供されるように、浅い単語の埋め込みだけで生活できる場合、Word Mover Distance(WMD [はい、本当に...])は(短い)文書距離[1]を測定するのに便利な機能だと思います。過去に、この距離測定の「チュートリアル」を提供するPythonノートブックを見たことがあります。
ただし、SOTAに興味がある場合は、センテンスからトピックモデルを学習する何らかのリカレントネットワークを使用して、ディープ(シーケンス表現)学習を検討する必要があります。単語の(意味的な)埋め込みを統合することに加えて、これらのアプローチは、依存関係を使用してトピック表現を学習することにより、[良い、古い]「単語の袋」アプローチを超えます文の単語の。たとえば、文レベルのリカレントトピックモデル(SLRTM)は、より伝統的なLDA(Blei等)またはLSA(Landauer等)のアイデアに基づいた非常に興味深い深層のリカレントモデルですが、arXivのみです。論文(したがって、査読されていない研究に関するすべてのデフォルトの「塩粒による警告」を適用する必要があります...)[2]。それにもかかわらず、このウサギの穴を下って行きたい場合は、論文には多くの優れた指針と参考文献があり、研究を開始することができます。
最後に、これらがバッグオブワードとシーケンスモデルのそれぞれについて最高のパフォーマンスで合意された方法であると主張していないことを明確にする必要があります。しかし、彼らは「最高の」SOTAが何であろうとあなたをかなり近づけるべきであり、少なくとも優れた出発点として役立つはずです。
[1] Matt J. Kusner et al。Wordの埋め込みからドキュメントの距離まで。第32回機械学習に関する国際会議、JMLR、2015年の議事録。
[2] Fei Tian et al。SLRTM:トピックを自分で話せるようにします。arXiv 1604.02038、2016年。
https://github.com/RandyPen/TextCluster
これは、ショートテキスト固有のクラスターメソッドであり、KMeansなどよりも優れています。潜在変数番号を設定する必要はありません。
基本的な考え方は、文を単語にトークン化することです。次に、テキストコンポーネントに応じて異なるバケットに移動します。各バケットで、文とバケット間の類似度を計算します。類似性スコアが特定の値よりも高い場合は、この文をそのバケットに追加します。それ以外の場合は、次のバケットを検索します。