テキスト分類問題:Word2Vec / NNは最善のアプローチですか?


10

私は、テキストの段落が与えられれば、それを分類してコンテキストを特定できるシステムを設計しようと考えています。

  1. ユーザーが作成したテキスト段落(コメント/質問/回答など)でトレーニングされている
  2. トレーニングセットの各アイテムには、のタグが付けられます。したがって、たとえば( "category 1"、、 "text段落")
  3. 何百ものカテゴリがあります

そのようなシステムを構築するための最良のアプローチは何でしょうか?私はいくつかの異なるオプションを見てきましたが、以下は可能な解決策のリストです。Word2Vec / NNは現時点で最良のソリューションですか?

  1. 平均化されたWord2Vecデータが供給された再帰型ニューラルテンソルネットワーク
  2. RNTNとパラグラフベクトル(https://cs.stanford.edu/~quocle/paragraph_vector.pdf)?
  3. Deep Belief Networkで使用されるTF-IDF
  4. TF-IDFとロジスティック回帰
  5. Bag of WordsとNaive Bayes分類

どのようなカテゴリを明確にできますか?新しいカテゴリや目に見えない単語を処理できる必要がありますか?まれな用語と目に見えないカテゴリに関する要件は、システムの設計に役立ちます。
NBartley 2015年

@NBartleyに感謝します。目に見えない言葉も高い確率です。入力パラはユーザー生成コンテンツであるため、新しい目に見えない単語の可能性は非常に高くなります。カテゴリが定義されますが、時間の経過とともにカテゴリリストを拡張する必要があります。おかげで
シャンカール

sense2vecも確認してくださいarxiv.org/abs/1511.06388。簡単に言えば、単語の埋め込みと品詞タグ付けを組み合わせたものです。同音異義語を明確にすることにより、単語の埋め込みをより正確にしたと報告されています。分類タスクのパフォーマンスも向上するかどうかを確認すると興味深いでしょう。
wacax

回答:


5

1)TFIDFベクトルの最大エントロピー(ロジスティック回帰)は、多くのNLP分類タスクの良い出発点です。

2)Word2vecは、間違いなくモデル1と比較してみる価値があります。私は、Doc2Vecフレーバーを使用して文/段落を調べることをお勧めします。

Quoc LeとTomas Mikolov。文とドキュメントの分散表現。http://arxiv.org/pdf/1405.4053v2.pdf

Gensim(python)には、素晴らしいDoc2vecモデルがあります。


@rushimgに感謝します。カテゴリーが密接に関連している場合、つまり、入力として使用されるテキストのパラに大量の一般的な単語がある場合、2つのアプローチのどちらがコンテキストの理解と2つの間の区別に優れていますか?
Shankar、2015年

Doc2Vecモデルを使用するのは、max-entモデルのバッグ・オブ・ワードの前提がなくなるためです。tf-idfがmax-entモデルの機能として使用されている場合、これは一般的な単語の影響も軽減します。両方の方法を試し、調整することは、最善の行動方針だと思います。
rushimg 2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.