私は、テキストの段落が与えられれば、それを分類してコンテキストを特定できるシステムを設計しようと考えています。
- ユーザーが作成したテキスト段落(コメント/質問/回答など)でトレーニングされている
- トレーニングセットの各アイテムには、のタグが付けられます。したがって、たとえば( "category 1"、、 "text段落")
- 何百ものカテゴリがあります
そのようなシステムを構築するための最良のアプローチは何でしょうか?私はいくつかの異なるオプションを見てきましたが、以下は可能な解決策のリストです。Word2Vec / NNは現時点で最良のソリューションですか?
- 平均化されたWord2Vecデータが供給された再帰型ニューラルテンソルネットワーク
- RNTNとパラグラフベクトル(https://cs.stanford.edu/~quocle/paragraph_vector.pdf)?
- Deep Belief Networkで使用されるTF-IDF
- TF-IDFとロジスティック回帰
- Bag of WordsとNaive Bayes分類
どのようなカテゴリを明確にできますか?新しいカテゴリや目に見えない単語を処理できる必要がありますか?まれな用語と目に見えないカテゴリに関する要件は、システムの設計に役立ちます。
—
NBartley 2015年
@NBartleyに感謝します。目に見えない言葉も高い確率です。入力パラはユーザー生成コンテンツであるため、新しい目に見えない単語の可能性は非常に高くなります。カテゴリが定義されますが、時間の経過とともにカテゴリリストを拡張する必要があります。おかげで
—
シャンカール
sense2vecも確認してくださいarxiv.org/abs/1511.06388。簡単に言えば、単語の埋め込みと品詞タグ付けを組み合わせたものです。同音異義語を明確にすることにより、単語の埋め込みをより正確にしたと報告されています。分類タスクのパフォーマンスも向上するかどうかを確認すると興味深いでしょう。
—
wacax