word2vecのCBOWよりも、まれな単語に対してskip-gramの方が優れているのはなぜでしょうか。https://code.google.com/p/word2vec/で申し立てを読みました。
word2vecのCBOWよりも、まれな単語に対してskip-gramの方が優れているのはなぜでしょうか。https://code.google.com/p/word2vec/で申し立てを読みました。
回答:
ここに、違いについての単純化されたかなり単純な理解を示します。
私たちが知っているように、CBOWは文脈によって単語を予測することを学んでいます。または、コンテキストを見てターゲットワードの確率を最大化します。そして、これはたまたままれな言葉の問題です。たとえば、コンテキストが与えられた場合、yesterday was really [...] day
CBOWモデルはおそらく単語がbeautiful
またはであることを通知しますnice
。このようなdelightful
単語は、最も可能性の高い単語を予測するように設計されているため、モデルの注目をはるかに少なくします。まれな単語は、より頻繁な単語を含む多くの例で平滑化されます。
一方、スキップグラムはコンテキストを予測するように設計されています。言葉を考えるとdelightful
、それはそれを理解し、コンテキストがあり、巨大な可能性があることを、私たちに教えなければならないyesterday was really [...] day
、またはいくつかの他の関連するコンテキスト。でスキップグラム単語はdelightful
単語と競争しようとしませんbeautiful
が、代わりに、delightful+context
ペアは新しい観測として扱われます。このため、skip-gramはより多くのデータを必要とするため、まれな単語でも理解できるようになります。
私はちょうど反対を示す論文に出くわしました:CBOWはskip-gram https://arxiv.org/abs/1609.08293よりもまれな単語に対してより良いということです。https://code.google.com/p/word2vec/に記載されている主張のソースは何だろうか。