回答:
テキストデータを処理するすべてのアルゴリズムには語彙があります。word2vecの場合、語彙は入力コーパス内のすべての単語、または少なくとも最小頻度しきい値を超える単語で構成されます。
アルゴリズムは、語彙の外にある単語を無視する傾向があります。ただし、本質的に語彙外の単語がないように問題をリフレームする方法があります。
単語は単にword2vecの「トークン」であることに注意してください。ngramの場合もあれば、文字の場合もあります。語彙を定義する1つの方法は、少なくともX回出現するすべての単語が語彙にあると言うことです。次に、最も一般的な「音節」(ngramの文字)が語彙に追加されます。次に、個々の文字を語彙に追加します。
このようにして、次のいずれかの単語を定義できます。
word2vecは単語をアトムとして扱います。不明な単語の意味のあるベクトルを取得するには、次のいずれかを行う必要があります
トレーニングコーパスには、類似性を検索するすべての単語が必要です。