タグ付けされた質問 「word-embeddings」

単語の埋め込みとは、NLPにおける一連の言語モデリングおよび特徴学習手法の総称であり、単語は、語彙サイズと比較して、低次元空間の実数のベクトルにマッピングされます。

2
LSTMを使用した言語モデリングタスクでの未知の単語の処理
自然言語処理(NLP)タスクでは、word2vecベクトルを単語の埋め込みとして使用することがよくあります。ただし、単純にこれらの単語がトレーニングデータで十分に見られないために、word2vecベクトルによってキャプチャされない未知の単語が多数ある場合があります(多くの実装では、単語を語彙に追加する前に最小カウントを使用します)。これは特に、単語がつづりが間違っているTwitterなどのテキストに当てはまります。 長期短期(LSTM)ネットワークを使用した感情予測などのNLPタスクをモデル化する場合、このような未知の単語をどのように処理する必要がありますか?2つのオプションが表示されます。 「未知の単語」トークンをword2vec辞書に追加します。 これらの未知の単語を削除して、LSTMがその単語が文の中にあることさえ知らないようにします。 これらの単語を処理する好ましい方法は何ですか?


2
word2vecの元の目的関数に対する負のサンプリング(NS)目的関数の関係はどのようなものですか?
私は、標準/有名な読んでいたword2vecするためのモデルをしてstandordのメモによるとcs224n:から目的関数の変化を JO R I GI N L= −Σj = 0 、j ≠ m2 メートルあなた⊤c − m + jvc+ 2 m l o g(Σk = 1| V|e x p (あなた⊤kvc))Joriginal=−∑j=0,j≠m2muc−m+j⊤vc+2mlog(∑k=1|V|exp(uk⊤vc))J_{original} = -\sum^{2m}_{j=0,j\neq m} u^\top_{c-m+j} v_c + 2m log \left( \sum^{|V|}_{k=1} exp(u^{\top}_k v_c) \right) に: JNS1= − l o gσ(あなた⊤c − m …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.