この質問に触発されて、私は非常に短いテキストの大規模なコレクションのトピックモデルで何か作業が行われたかどうか疑問に思っています。私の直感では、Twitterはそのようなモデルの自然なインスピレーションになるはずです。ただし、いくつかの限られた実験から、標準のトピックモデル(LDAなど)は、この種のデータでは非常にパフォーマンスが低いようです。
誰もがこの分野で行われた仕事を知っていますか?このホワイトペーパーでは、LDAをTwitterに適用する方法について説明しますが、ショートドキュメントのコンテキストでより優れたパフォーマンスを発揮する他のアルゴリズムがあるかどうかに興味があります。