言葉の連続袋についての質問

11

この文を理解できません。

最初に提案されたアーキテクチャは、フィードフォワードNNLMに似ています。非線形の隠れ層が削除され、投影層がすべての単語（投影行列だけでなく）で共有されます。したがって、すべての単語が同じ位置に投影されます（それらのベクトルは平均化されます）。

投影層と投影行列とは何ですか？すべての単語が同じ位置に投影されるとはどういう意味ですか？そして、なぜそれはそれらのベクトルが平均化されることを意味するのですか？

この文は、ベクトル空間での単語表現の効率的な推定（Mikolov et al。2013）のセクション3.1の最初のものです。

— user70394
ソース

6

図1では、少しわかりやすくしています。特定のサイズのウィンドウからのすべてのワードベクトルが合計され、結果は（1 /ウィンドウサイズ）で乗算されて、出力層に送られます。

射影行列は、各単語が単一の実数値ベクトルに対応するルックアップテーブル全体を意味します。投影レイヤーは、事実上、単語（単語インデックス）を取り、対応するベクトルを返すプロセスです。それらを連結するか（kがウィンドウサイズでnがベクトル長であるサイズk * nの入力を取得）、またはCBOWモデルのように、それらすべてを合計する（サイズnの入力を取得）ことができます。

— デニス・タラソフ
ソース

まず、回答ありがとうございます。まだ、射影行列と射影層の違いに少し戸惑っています。彼らは同じように見えます。

— user70394

@ user70394はい、実際、用語がやや混乱しています。基本的に、どのNNレイヤーも入力を出力にマップする関数です。プロジェクションレイヤーは、プロジェクションマトリックスの重みを使用してこれを行いますが、マトリックス自体ではありません。同じ行列が与えられると、多くの異なる関数を定義できます。実際、CBOWの場合、時間遅延のあるプロジェクションレイヤーに続いて総和レイヤーがあると言えるでしょう。RNNLMモデルでは、「プロジェクションレイヤー」は、実際には、出力行列を計算するために投影行列の重みと再帰的な重みを組み合わせた再帰的な隠れ層の一部です。

— Denis Tarasov 2015年

1

私はCBOWの問題についての周りの閲覧と、このつまずいたので、ここでは（「投影である何、あなたの（最初の）質問への代替答えである層対マトリックス？」）が（、NNLMモデルを見て、Bengioら、 2003）：

$Bengio et al。、2003、図1：ニューラルアーキテクチャ：f（i、w_ {t-1}、···、w_ {t-n + 1}）= g（i、C（w_ {t-1} ）、···、C（w_ {t−n + 1}））ここで、gはニューラルネットワークで、C（i）はi番目の単語の特徴ベクトルです。$

$tanh$ $C(w_i)$ $C$ $tanh$

追加して、「記録のためだけに」：本当にエキサイティングな部分は、ベンジオのイメージで「ほとんどの計算はここに」というフレーズが見られる部分を解決するためのミコロフのアプローチです。Bengio は、後の論文（Morin＆Bengio 2005）で（softmaxを単に使用するのではなく）階層的 softmaxと呼ばれることを行うことで、この問題を軽減しようとしました。しかし、ミコロフは、負のサブサンプリングの戦略でこれをさらに一歩進めました：彼はすべての「間違った」単語（またはBengioが2005年に提案したようにハフマンコーディング）の負の対数尤度をまったく計算していません。十分なそのような計算と巧妙な確率分布が与えられた、負のケースの小さなサンプルは非常にうまく機能します。そして2番目の、そしてさらに大きな貢献は当然ですが、 $P(context | w_t = i)$

— FNL
ソース