2つのWord2vecベクトルを平均して単一の単語の統一表現を取得する


8

Word2vecアルゴリズムのトレーニング済みデータに取り組んでいます。元の状態を保つには単語が必要なので、前処理段階では単語を小文字にしません。したがって、異なるバリエーションの単語があります(たとえば、「地球」と「地球」)。

私が考えることのできる唯一の方法は、「地球」と「地球」のベクトルを平均して、単語を表す単一のベクトルを作成することです。(特徴ベクトルの次元は類似しているため)

これは「大丈夫」な方法ですか?そうでない場合、この問題を処理するための良い方法は何でしょうか?

注:前処理ですべての単語を下げることは、現時点ではオプションではありません。

編集:フィーチャの寸法が本当に直線的であるかどうかに関する情報も役立ちます。

編集2:両方からの回答を組み合わせるpatapouf_aiyazhi最良の結果が得られました。これらはどのように組み合わされますか?加重平均は結果を改善しましたが、スケーリングされたシグモイド関数に単語の頻度を置くと、単語の頻度を線形的に使用することで、単語の頻度よりも重要度が高くなるため、最良の結果が得られました。

回答:


1

それらを平均化するだけでは適切ではない可能性があります。これは、それらが同じ重みを持っていることを前提としているためです。

漸進的な改善は、コーパス内の頻度に比例してそれらを平均化することです。地球が159回出現し、地球が1239回出現するとします。

v(地球&地球)= 159 /(159 + 1239)* v(地球)+ 1239 /(159 + 1239)* v(地球)。

ベクトルはセマンティクスを線形にエンコードすることになっているので、これは妥当な近似を与えるはずです。


1
これは、すでに選択したソリューションです。私も答えを受け入れるかもしれません。
ozgur

0

「Earth」と「earth」という単語は同じ意味を持っている可能性がありますが、word2vecアルゴリズムによれば、単語の位置から意味情報が導き出されます。

したがって、通常、「地球」は主語である文の最初に最も頻繁に表示され、「地球」は最後に主にオブジェクト形式で表示されます。したがって、最も近い隣接する単語は異なる場合がありますが、全体として、両方の文に「汚染、気候、水、国」などの単語が含まれる場合があります。

結論として、ウィンドウサイズが大きくなると、「地球」がいくつかのサブジェクト情報を持ち、「地球」がオブジェクト情報を持つ小さな変更で、同じセマンティック情報を保持しているようです。したがって、平均化はあまり影響せず、考えられるケースのようです。しかし、ウィンドウサイズが小さいほど、意味が異なる可能性が高くなります。


さて、BoWサイズは5です。平均化が機能するための適切なウィンドウサイズは、次のうちどれですか。
ozgur、2016年

ウィンドウサイズが5の場合、合計で10ワードと見なされ、一般的な英語の文は10ワードで記述できます。だからそれは私にとってはいい音です。
yazhi
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.