短いドキュメントのトピックモデル

14

この質問に触発されて、私は非常に短いテキストの大規模なコレクションのトピックモデルで何か作業が行われたかどうか疑問に思っています。私の直感では、Twitterはそのようなモデルの自然なインスピレーションになるはずです。ただし、いくつかの限られた実験から、標準のトピックモデル（LDAなど）は、この種のデータでは非常にパフォーマンスが低いようです。

誰もがこの分野で行われた仕事を知っていますか？このホワイトペーパーでは、LDAをTwitterに適用する方法について説明しますが、ショートドキュメントのコンテキストでより優れたパフォーマンスを発揮する他のアルゴリズムがあるかどうかに興味があります。

— マーティン・オリアリー
ソース

2

Twitterは、「ドキュメント」のサイズが小さいだけでなく、テキストの種類のために、トピックモデリングに特に難しいデータセットです。人々は、さまざまなテキストショートハンドを使用する傾向があり、これにより、共起の特定がさらに困難になります。

— ニック

ツイートのトピックモデリングに適した論文のリストと対応するソースコードを参照してください：quora.com/…–

— NQD

7

これは遅い答えですが、この問題に関連する研究やツールを探している他の人にとっては便利です。

コロンビアのWeiwei Guoは、短文トピックモデリング用のコードを実装しました。彼は、「潜在空間での文のモデリング」（http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf）で実装を説明し、コードはここで入手できます： http：// www .cs.columbia.edu /〜weiwei / code.html
これはトピックモデリングではありませんが、短いテキストを含む分類タスクがある場合は、LibShortTextを使用できます。Webサイトの説明から

「LibShortTextは、ショートテキストの分類と分析のためのオープンソースツールです。たとえば、タイトル、質問、文章、ショートメッセージの分類を処理できます...」

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— DPS
ソース

6

私は彼の仕事にあまり精通していませんが、ジェイコブ・アイゼンシュタインがTwitterデータのテキスト分析とグラフィカルモデルの仕事をしたことは知っています。特に、このペーパーでは、Twitterデータとマイクロブログでのトピックモデリングのアプリケーションについて説明します。

編集：実際にもう少し論文を読んだ後、彼らは述べています：

ただし、Twitterの平均的なメッセージは16ワードトークンしかないため、従来のトピックモデリングにはスパースすぎます。代わりに、特定のユーザーからのすべてのメッセージを1つのドキュメントにまとめました。

そのため、おそらく非常に論文はあまり役に立たないかもしれませんが、それでも他のアイゼンシュタインの出版物はあなたを正しい方向に導くかもしれません。

— ジュニエ
ソース

6

「と呼ばれる最近の論文に短いテキストのbitermトピックモデル（WWW13）は」このトピックに関するいくつかの進歩を遂げ、ここでそのですしているコード

— ia小oh
ソース

2

BiTerm LDAは、短いテキストの発話（3〜8語）のトピックモデリングとその後の分類に非常に適していることを確認します。

— ヴラディスラフドブガレス16年