word2vecのCBOWモデルとskip-gramモデルで、階層的なソフトマックスが頻度の低い単語に対して優れているのに対し、ネガティブサンプリングが頻繁な単語に対して優れているのはなぜかと思います。https://code.google.com/p/word2vec/で申し立てを読みました。
word2vecのCBOWモデルとskip-gramモデルで、階層的なソフトマックスが頻度の低い単語に対して優れているのに対し、ネガティブサンプリングが頻繁な単語に対して優れているのはなぜかと思います。https://code.google.com/p/word2vec/で申し立てを読みました。
回答:
私はword2vecの専門家ではありませんが、Rong、X.(2014)を読んでいます。word2vecのパラメーター学習の説明と、私自身のNNの経験から、これに対する推論を簡素化します。
この2つの方法は、理論的には排他的ではないようですが、とにかく、頻繁で頻度の低い単語の方が優れている理由と思われます。
これは、カテゴリ階層を構築するときに使用されるハフマンコーディングのためであると理解しています。
階層的なソフトマックスは、1つの大きなソフトマックスの代わりにシグモイドノードのツリーを使用します。ハフマンコーディングは、シグモイドノードの各側に属するデータポイントの分散がバランスされるようにします。したがって、1つの大きなソフトマックスとネガティブサンプリングを使用する場合と比較して、頻繁なカテゴリに対する選好を排除するのに役立ちます。