スキップグラムは、まれな単語に対してCBOWよりも優れているのはなぜですか?


回答:


14

CBOWでは、中心語を予測する前に、文脈語からのベクトルが平均化されます。スキップグラムでは、埋め込みベクトルの平均化は行われません。予測を行う過程で、ベクトルが他のコンテキスト単語と平均化されていない場合、モデルはまれな単語のより良い表現を学習できるようです。


13

ここに、違いについての単純化されたかなり単純な理解を示します。

私たちが知っているように、CBOWは文脈によって単語を予測することを学んでいます。または、コンテキストを見てターゲットワードの確率を最大化します。そして、これはたまたままれな言葉の問題です。たとえば、コンテキストが与えられた場合、yesterday was really [...] dayCBOWモデルはおそらく単語がbeautifulまたはであることを通知しますnice。このようなdelightful単語は、最も可能性の高い単語を予測するように設計されているため、モデルの注目をはるかに少なくします。まれな単語は、より頻繁な単語を含む多くの例で平滑化されます。

一方、スキップグラムはコンテキストを予測するように設計されています。言葉を考えるとdelightful、それはそれを理解し、コンテキストがあり、巨大な可能性があることを、私たちに教えなければならないyesterday was really [...] day、またはいくつかの他の関連するコンテキスト。でスキップグラム単語はdelightful単語と競争しようとしませんbeautifulが、代わりに、delightful+contextペアは新しい観測として扱われます。このため、skip-gramはより多くのデータを必要とするため、まれな単語でも理解できるようになります。


0

私はちょうど反対を示す論文に出くわしました:CBOWはskip-gram https://arxiv.org/abs/1609.08293よりもまれな単語に対してより良いということです。https://code.google.com/p/word2vec/に記載されている主張のソースは何だろうか。


ミコロフは自分でそのツールキットを書いたと思う。興味深いことに、彼の論文:papers.nips.cc/paper / ...では、「トレーニング中の頻出語のサブサンプリングにより、大幅な高速化(約2倍-10倍)が行われ、頻出語の表現の精度が向上することを示しています。 」そのため、サブサンプリング拡張機能を備えたスキップグラムです。
ケビン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.