Word2VecとDoc2Vecはどちらも分布表現ですか、それとも分散表現ですか?


10

私は、分布表現が、類似した文脈で出現する単語は類似した意味を持つ傾向があるという分布仮説に基づいていることを読みました。

Word2VecとDoc2Vecはどちらも、この仮説に従ってモデル化されています。ただし、元の論文では、Distributed representation of words and phrasesととタイトルが付けられていDistributed representation of sentences and documentsます。したがって、これらのアルゴリズムは、分散表現または分散表現に基づいています。

LDAやLSAなどの他のモデルについてはどうでしょうか。

回答:


5

事実上、Word2Vec / Doc2Vecはdistributional hypothesis、各単語のコンテキストがその近くの単語である場所に基づいています。同様に、LSAはドキュメント全体をコンテキストとして使用します。どちらの手法もword embedding問題を解決します-意味的に関連する単語を互いに近づけながら、単語を連続ベクトル空間に埋め込みます。

一方、LDAは同じ問題を解決するために作られていません。彼らはと呼ばれる別の問題に対処しtopic modelingます。これは、一連のドキュメントから潜在的なトピックを見つけることです。


Googleグループから、分散型と分散型の両方の観点からの返信を受け取りました。ベクトル空間での分散された特徴に関して使用および分散された仮説に関する分布。
yazhi 2016年

vkingmaleroyalvqueenfemaleroyalvkingvqueenvmanvwoman
火曜日N

2

Turian、Joseph、Lev Ratinov、Yoshua Bengio。「単語表現:半教師あり学習のためのシンプルで一般的な方法。」計算言語学協会の第48回年次総会の議事録。Association for Computational Linguistics、2010年。分布表現と分散表現を次のように定義します。

  • FW×CWFwwFcFFwWFwFd<<CFwwdgF

  • 分散表現は、高密度の低次元、および実数値です。分散された単語表現は、単語の埋め込みと呼ばれます。埋め込みの各次元は、単語の潜在的な特徴を表し、うまくいけば、有用な構文的および意味的特性を捉えることができます。分散表現は、次元数で指数関数的なクラスター数を表すことができるという意味でコンパクトです。

参考:単語ベクトル、単語表現、ベクトル埋め込みの違いは何ですか?


2
同じ混乱が答えにも残っています。両方の表現からのプロパティがあります。共通点を見てみましょう。Distributional:それはサイズWxCの行列を持ち、Wxdに縮小されます。ここで、dは埋め込みベクトルのサイズです。ウィンドウサイズを使用してコンテキストを決定します。Distributed:密な低次元ベクトル。それらの次元で潜在的な特徴(意味論的プロパティ)を保持します。
yazhi 2016年

2

グーグルグループを経由したアンドレイクトゥーゾフからの返信は満足のいくものでした

word2vecアルゴリズムは両方に基づいていると私は言うでしょう。

人々が言うときdistributional representation、それらは通常言語的側面を意味します:意味は文脈であり、会社や他の有名な引用で単語を知っています。

しかし、人々が言うときdistributed representation、それはほとんど言語学とは何の関係もありません。それはコンピュータサイエンスの側面についてです。私がミコロフと他を正しく理解するならばdistributed、彼らの論文の言葉 はベクトル表現のそれぞれの単一の構成要素がそれ自身の意味を持っていないことを意味します。解釈可能な機能(たとえば、word2vecの場合のワードコンテキスト)は非表示でdistributed、解釈不可能なベクトルコンポーネントの中にあります。各コンポーネントは複数の解釈可能な機能を担当し、各解釈可能な機能は複数のコンポーネントにバインドされています。

したがって、word2vec(およびdoc2vec)は、語彙のセマンティクスを表現する方法として、技術的に分散表現を使用します。同時に、それは概念的に分布仮説に基づいています。分布仮説が真であるためにのみ機能します(単語の意味は典型的なコンテキストと相関しています)。

しかし、もちろん多くの場合、これらの用語は同じ意味distributeddistributional使用され、誤解が増えています:)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.