短いドキュメントのトピックモデル


14

この質問に触発され、私は非常に短いテキストの大規模なコレクションのトピックモデルで何か作業が行われたかどうか疑問に思っています。私の直感では、Twitterはそのようなモデルの自然なインスピレーションになるはずです。ただし、いくつかの限られた実験から、標準のトピックモデル(LDAなど)は、この種のデータでは非常にパフォーマンスが低いようです。

誰もがこの分野で行われた仕事を知っていますか?このホワイトペーパーでは、LDAをTwitterに適用する方法について説明しますが、ショートドキュメントのコンテキストでより優れたパフォーマンスを発揮する他のアルゴリズムがあるかどうかに興味があります。


2
Twitterは、「ドキュメント」のサイズが小さいだけでなく、テキストの種類のために、トピックモデリングに特に難しいデータセットです。人々は、さまざまなテキストショートハンドを使用する傾向があり、これにより、共起の特定がさらに困難になります。
ニック

ツイートのトピックモデリングに適した論文のリストと対応するソースコードを参照してください:quora.com/…–
NQD

回答:


7

これは遅い答えですが、この問題に関連する研究やツールを探している他の人にとっては便利です。

  1. コロンビアのWeiwei Guoは、短文トピックモデリング用のコードを実装しました。彼は、「潜在空間での文のモデリング」(http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf)で実装を説明し、コードはここで入手できます: http:// www .cs.columbia.edu /〜weiwei / code.html

  2. これはトピックモデリングではありませんが、短いテキストを含む分類タスクがある場合は、LibShortTextを使用できます。Webサイトの説明から

「LibShortTextは、ショートテキストの分類と分析のためのオープンソースツールです。たとえば、タイトル、質問、文章、ショートメッセージの分類を処理できます...」

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

私は彼の仕事にあまり精通していませんが、ジェイコブ・アイゼンシュタインがTwitterデータのテキスト分析とグラフィカルモデルの仕事をしたことは知っています。特に、このペーパーでは、Twitterデータとマイクロブログでのトピックモデリングのアプリケーションについて説明します。

編集:実際にもう少し論文を読んだ後、彼らは述べています:

ただし、Twitterの平均的なメッセージは16ワードトークンしかないため、従来のトピックモデリングにはスパースすぎます。代わりに、特定のユーザーからのすべてのメッセージを1つのドキュメントにまとめました。

そのため、おそらく非常に論文はあまり役に立たないかもしれませんが、それでも他のアイゼンシュタインの出版物はあなたを正しい方向に導くかもしれません。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.