自然言語処理(NLP)タスクでは、word2vecベクトルを単語の埋め込みとして使用することがよくあります。ただし、単純にこれらの単語がトレーニングデータで十分に見られないために、word2vecベクトルによってキャプチャされない未知の単語が多数ある場合があります(多くの実装では、単語を語彙に追加する前に最小カウントを使用します)。これは特に、単語がつづりが間違っているTwitterなどのテキストに当てはまります。
長期短期(LSTM)ネットワークを使用した感情予測などのNLPタスクをモデル化する場合、このような未知の単語をどのように処理する必要がありますか?2つのオプションが表示されます。
- 「未知の単語」トークンをword2vec辞書に追加します。
- これらの未知の単語を削除して、LSTMがその単語が文の中にあることさえ知らないようにします。
これらの単語を処理する好ましい方法は何ですか?
2
以前に同様の質問に回答しました。:質問は、その後LSTMsに特異的ではなかったが、私が書いたもののほとんどがちょうど適用として存在することになるようだstats.stackexchange.com/questions/163005/...
—
FNL