回答:
Bag-of-Wordsとベクター空間モデルは、ドキュメントなどのテキスト本文を特徴付けるさまざまな側面を指します。それらは、情報検索に関するセクション23.1のJurafskyとMartinによる2009年の教科書「Speech and Language Processing」で詳しく説明されています。より簡潔な参照は、「スコアリングのためのベクトル空間モデル」のセクションにある、Manning、Raghavan、およびSchütze、2008による「Introduction to Information Retrieval 」です。
バッグオブワードとは、ドキュメントからどのような情報を抽出できるか(つまり、ユニグラムワード)を指します。ベクトル空間モデルは、各ドキュメントのデータ構造(つまり、用語と用語の重みのペアの特徴ベクトル)を指します。両方の側面が互いに補完し合う。
すなわち:
Bag-of-words:特定のドキュメントについて、ユニグラムの単語(別名)のみを抽出して、単語の順序付けられていないリストを作成します。POSタグ、構文、セマンティクス、位置、バイグラム、トライグラムはありません。ユニグラム単語のみで、ドキュメントを表す単語の束になります。したがって:Bag-of-words。
ベクトル空間モデル:ドキュメントから抽出した単語のバッグを前提として、ドキュメントの特徴ベクトルを作成します。各特徴は単語(用語)であり、特徴の値は用語の重みです。用語の重みは次のようになります。
したがって、ドキュメント全体が特徴ベクトルであり、各特徴ベクトルはベクトル空間内の点に対応します。このベクトル空間のモデルは、語彙のすべての用語に軸があり、ベクトル空間はV次元です(Vは語彙のサイズ)。その場合、ベクトルは概念的にはすべての語彙用語の特徴を持つV次元であるべきです。ただし、語彙は大きくなる可能性があるため(V = 100,000程度)、ドキュメントの特徴ベクトルには通常、そのドキュメントで発生した用語のみが含まれ、そうでない用語は省略されます。このような特徴ベクトルはスパースと見なされます。
したがって、ドキュメントのベクトル表現の例は次のようになります。
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
この例のベクトルには、ドキュメントID(たとえば42)、グラウンドトゥルースラベル(たとえば政治)、および用語と用語の頻度のペアを含む特徴と特徴値のリストがあります。ここでは、このドキュメントで「不在」という単語が2回出現したことがわかります。
Bag of Wordsを使用して、単語の頻度をdocument-term行列要素に割り当てます。ベクトル空間モデルのdocument-term行列要素では、ベクトル空間での演算(ドット積)が意味を持つ限り(tf-idf重み、例)?