word2vecで単語ベクトルをトレーニングした後、ダウンストリームアプリケーションで使用する前に単語ベクトルを正規化する方が良いでしょうか?すなわち、それらを正規化することの長所/短所は何ですか?
word2vecで単語ベクトルをトレーニングした後、ダウンストリームアプリケーションで使用する前に単語ベクトルを正規化する方が良いでしょうか?すなわち、それらを正規化することの長所/短所は何ですか?
回答:
ダウンストリームアプリケーションが単語ベクトルの方向のみを考慮する場合(たとえば、2つの単語のコサインの類似性のみに注意を払う場合)、正規化して長さを忘れます。
ただし、ダウンストリームアプリケーションが、単語の重要性や単語の使用法の一貫性(以下を参照)など、より賢明な側面を考慮することができる(または必要とする)場合、正規化はあまり良い考えではありません。
レヴィら、2015(と、実際には、単語の埋め込みに関する文献のほとんど):
ベクトルは、類似度の計算に使用される前に単位長に正規化され、コサイン類似度と内積と同等になります。
また、Wilson and Schakel、2015年から:
単語埋め込みのほとんどのアプリケーションは、単語ベクトルそのものではなく、類似性や単語関係のタスクなどを解決するための単語ベクトル間の関係を探索します。これらのタスクでは、正規化された単語ベクトルを使用するとパフォーマンスが向上することがわかりました。したがって、ワードベクトルの長さは通常無視されます。
正規化は、長さの概念を失うことと同等です。つまり、単語ベクトルを正規化すると、トレーニングフェーズ直後の単語の長さ(ノルム、モジュール)を忘れます。
ただし、場合によっては、単語ベクトルの元の長さを考慮する価値があります。
Schakel and Wilson、2015は、単語ベクトルの長さに関するいくつかの興味深い事実を観察しました。
同様のコンテキストで一貫して使用される単語は、異なるコンテキストで使用される同じ頻度の単語よりも長いベクトルで表されます。
方向だけでなく、単語ベクトルの長さも重要な情報を伝えます。
単語のベクトルの長さは、用語の頻度と組み合わせて、単語の重要度の有用な尺度を提供します。