word2vecの単語ベクトルの特徴


9

私は感情分析をしようとしています。単語を単語ベクトルに変換するために、word2vecモデルを使用しています。すべての文が「sentences」という名前のリストにあり、次のようにこれらの文をword2vecに渡しているとします。

model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300,   window=5, sample=1e-3)

私は単語ベクトルに慣れていないので、2つの疑問があります。
1-特徴の数を300に設定すると、単語ベクトルの特徴が定義されます。しかし、これらの機能は何を意味していますか?このモデルの各単語が1x300のnumpy配列で表されている場合、これらの300の特徴はその単語に対して何を意味するのでしょうか。

2-上記のモデルの「sample」パラメーターで表されるダウンサンプリングは実際には何をしますか?

前もって感謝します。

回答:


10

1-機能の数:ニューラルネットワークモデルの観点から、これはプロジェクション(非表示)レイヤーのニューロンの数を表します。プロジェクションレイヤーは分布仮説に基づいて構築されているため、各単語の数値ベクトルは、コンテキストワードとの関係を示しています。

これは教師なしの方法であるため、これらの機能はニューラルネットワークによって学習されます。各ベクトルには、いくつかのセマンティック特性のセットがあります。たとえば、古典的な例を考えてみましょうV(King) -V(man) + V(Women) ~ V(Queen)。各単語は300-dベクトルで表されます。V(King)王族、王国、男らしさ、人間の意味的特徴を特定の順序でベクターに持ちます。V(man)男らしさ、人間、特定の順序で動作します。したがって、V(King)-V(Man)行われると、男らしさ、人間の特徴は無効になり、V(Women)女性らしさを持つものを追加すると、人間の特徴が追加され、結果として、V(Queen)。興味深いのは、これらの特性が特定の順序でベクトルにエンコードされるため、加算、減算などの数値計算が完全に機能することです。これは、ニューラルネットワークにおける教師なし学習方法の性質によるものです。

2- 2つの近似アルゴリズムがあります。Hierarchical softmaxnegative sampling。サンプルパラメータを指定すると、負のサンプリングが行われます。階層型ソフトマックスの場合、各単語ベクトルについて、そのコンテキスト単語には正の出力が与えられ、語彙の他のすべての単語には負の出力が与えられます。時間の複雑さの問題は、負のサンプリングによって解決されます。負のサンプリングと同様に、語彙全体ではなく、サンプリングされた語彙の一部のみに負の出力が与えられ、ベクトルはトレーニングされます。これは、以前の方法よりもはるかに高速です。


word2vec機能のこの解釈は誤解を招くものです。スペースの男らしさの次元、またはベクター内のロイヤルティ要素はありません。その場合、300次元のベクトル空間は、300の独立したセマンティック二分のみを表すことができます。
Dan Hicks

@DanHicks:空間の次元として各機能について言及したことはありません。私は、そのようなセマンティックな特徴は、数学的な演算が可能になるように、特定の順序でベクトルにエンコードされると述べました。
yazhi 2017

「特徴」は通常、ケースを表すために使用される変数を指します。この場合、単語ベクトルの要素/ベクトル空間の次元です。@Nainの質問は、明らかにこのように「機能」を使用しています。あなたが話している「セマンティック機能」は、word2vecが類推を処理する方法についてのせいぜい漠然とした方法です。それらは、単語ベクトルの特徴ではありません。
Dan Hicks 2017

1
私は「意味的特徴」を「意味的特徴」に編集しました、そして答えの「特徴」はベクトルの次元のみを表します。
yazhi 2017

0
  1. 分布仮説によれば、単語のベクトルの個々の次元は、現実世界の単語についてあまり意味を持ちません。個々の寸法について心配する必要があります。質問がそうである場合、ディメンションの数をどのように選択すればよいかは、純粋にデータの実験に基づいており、100から1000に及ぶ可能性があります。wikiテキストでトレーニングが行われる多くの実験では、300ディメンションが最も優れています。結果。
  2. Sample paramは、頻度の高い単語を切り捨てるために使用されるパラメータです。たとえば、「the」、「is」、「was」の場合、これらのストップワードはウィンドウ内で考慮されませんが、内部の単語を予測します。デフォルト値は、頻度が高いこれらのストップワードを識別するのに適しています。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.