Word2vecアルゴリズムのトレーニング済みデータに取り組んでいます。元の状態を保つには単語が必要なので、前処理段階では単語を小文字にしません。したがって、異なるバリエーションの単語があります(たとえば、「地球」と「地球」)。
私が考えることのできる唯一の方法は、「地球」と「地球」のベクトルを平均して、単語を表す単一のベクトルを作成することです。(特徴ベクトルの次元は類似しているため)
これは「大丈夫」な方法ですか?そうでない場合、この問題を処理するための良い方法は何でしょうか?
注:前処理ですべての単語を下げることは、現時点ではオプションではありません。
編集:フィーチャの寸法が本当に直線的であるかどうかに関する情報も役立ちます。
編集2:両方からの回答を組み合わせるpatapouf_ai
とyazhi
最良の結果が得られました。これらはどのように組み合わされますか?加重平均は結果を改善しましたが、スケーリングされたシグモイド関数に単語の頻度を置くと、単語の頻度を線形的に使用することで、単語の頻度よりも重要度が高くなるため、最良の結果が得られました。