この投稿から引用:https : //stats.stackexchange.com/a/245452/154812
問題
「標準」ニューラルネットワークを使用して単語ベクトルを学習する場合、いくつかの問題があります。このようにして、単語のウィンドウ(ネットワークの入力)が与えられると、ネットワークが次の単語の予測を学習しながら単語ベクトルが学習されます。
次の単語を予測することは、クラスを予測することに似ています。つまり、このようなネットワークは単なる「標準」の多項(マルチクラス)分類器です。また、このネットワークには、クラスと同数の出力ニューロンが必要です。クラスが実際の単語である場合、ニューロンの数は非常に膨大です。
「標準」ニューラルネットワークは、通常、確率を表す出力ニューロンの値を必要とするクロスエントロピーコスト関数でトレーニングされます。つまり、各クラスのネットワークによって計算された出力「スコア」は、正規化され、各クラスの実際の確率。この正規化手順は、softmax関数によって実現されます。Softmaxは、巨大な出力レイヤーに適用すると非常にコストがかかります。
(a)ソリューション
この問題、つまりソフトマックスの高価な計算に対処するために、Word2Vecはノイズ対比推定と呼ばれる手法を使用します。この手法は[A]([B]で再構成)によって導入され、[C]、[D]、[E]で使用され、ラベルのない自然言語テキストから単語の埋め込みを学習します。
基本的な考え方は、多項分類問題(次の単語を予測する問題であるため)をバイナリ分類問題に変換することです。つまり、softmaxを使用して出力ワードの真の確率分布を推定する代わりに、バイナリロジスティック回帰(バイナリ分類)が代わりに使用されます。
各トレーニングサンプルについて、強化された(最適化された)分類器には、真のペア(中心語とそのコンテキストに表示される別の語)とkk個のランダムに破損したペア(中心語とランダムに選択された語から構成される)単語)。真のペアと破損したペアを区別することを学習することにより、分類器は最終的に単語ベクトルを学習します。
これは重要です。次の単語(「標準」のトレーニング手法)を予測する代わりに、最適化された分類器は、単語のペアが良いか悪いかを単に予測します。
Word2Vecはプロセスをわずかにカスタマイズし、ネガティブサンプリングと呼びます。Word2Vecでは、ネガティブサンプル(破損したペアに使用)の単語は特別に設計された分布から描画されます。これにより、頻度の低い単語がより頻繁に描画されます。
参照資料
[A] (2005)-対照的推定:ラベルなしデータの対数線形モデルのトレーニング
[B] (2010)-ノイズ対比推定:非正規化統計モデルの新しい推定原理
[C] (2008)-自然言語処理のための統合アーキテクチャ:マルチタスク学習を備えたディープニューラルネットワーク
[D] (2012)-ニューラル確率言語モデルをトレーニングするための高速でシンプルなアルゴリズム。
[E] (2013)-ノイズを抑えた推定による単語埋め込みの効率的な学習。