タグ付けされた質問 「language-models」

3
Kneser-Neyスムージングでは、見えない単語はどのように処理されますか?
私が見たものから、(二次)Kneser-Ney平滑化式は何らかの形で次のように与えられます P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} 正規化係数次のように与えられますλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} および単語w_nの継続確率Pcont(wn)Pcont(wn)P_{cont}(w_n)wnwnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} ここで、N1+(∙w)N1+(∙w)N_{1+}\left(\bullet w\right)は、コンテキストwの数www、または単純に、特定の単語wの前にある個別の単語\ bulletの数です。私が理解したことから、式は再帰的に適用できます。∙∙\bulletwww 現在、これはさまざまなnグラム長の未知のコンテキストで既知の単語を適切に処理しますが、説明されていないのは、辞書にない単語がある場合の対処方法です。ユニグラムの再帰ステップでP_ {cont}(/)= P ^ 0_ {KN}(/)= \ …

1
SVDの前に単語共起行列に個別の相互情報を適用することの長所と短所は何ですか?
単語の埋め込みを生成する1つの方法は次のとおりです(ミラー)。 コーパスを取得します。たとえば、「飛行が好きです。NLPが好きです。ディープラーニングが好きです。」 それから単語共起行列を作成します。 でSVDを実行し、Uの最初の列を保持します。XXXkkk 部分行列の各行は、その行が表す単語を埋め込んだ単語になります(行1 = "I"、行2 = "like"、…)。U1:|V|,1:kU1:|V|,1:kU_{1:|V|,1:k} ステップ2と3の間に、点ごとの相互情報が適用される場合があります(A. HerbelotとEM Vecchiなど。2015。共有世界の構築:モデル理論的意味空間への分布のマッピング。自然言語処理における経験的方法に関する2015年会議の議事録。リスボン、ポルトガル。) SVDの前に単語共起行列に個別の相互情報を適用することの長所と短所は何ですか?

2
言葉の連続袋についての質問
この文を理解できません。 最初に提案されたアーキテクチャは、フィードフォワードNNLMに似ています。非線形の隠れ層が削除され、投影層がすべての単語(投影行列だけでなく)で共有されます。したがって、すべての単語が同じ位置に投影されます(それらのベクトルは平均化されます)。 投影層と投影行列とは何ですか?すべての単語が同じ位置に投影されるとはどういう意味ですか?そして、なぜそれはそれらのベクトルが平均化されることを意味するのですか? この文は、ベクトル空間での単語表現の効率的な推定(Mikolov et al。2013)のセクション3.1の最初のものです。

3
バイグラム(N-gram)モデルを使用したテキストドキュメントの特徴ベクトルの構築について
テキストマイニングの機能構築の従来のアプローチはバッグオブワードアプローチであり、tf-idfを使用して、特定のテキストドキュメントを特徴付ける特徴ベクトルを設定することで拡張できます。現在、バイグラム言語モデルまたは(N-gram)を使用して特徴ベクトルを構築しようとしていますが、その方法がよくわかりませんか?単語の代わりにバイグラムで頻度カウントを計算し、tf-idf重み付けスキームを使用してそれを強化する、つまり、bag-of-wordsのアプローチに従うことはできますか?

1
言語モデリング:合計1をなぜそれほど重要なのですか?
スペル修正、機械翻訳、音声認識などの多くの自然言語処理アプリケーションでは、言語モデルを使用しています。言語モデルは通常、単語のシーケンス(n-gram)が大規模なコーパスで発生する頻度をカウントし、そのカウントを正規化して確率を作成することによって作成されます。目に見えないn-gramを説明するために、モデルで証明されているn-gramから確率質量の一部を取り、この質量を低次のn-gram(短い単語シーケンス)に分配する平滑化方法(ここにリストされているいくつかを参照)を使用します)バックオフ確率。 計算では分布を確率として維持する必要があるため、平滑化手法の多くは数学的に複雑になります(合計は1にする必要があります)。 この制約の理由は何ですか?他の種類のスコアではなく、厳密な確率を予測に使用する利点は何ですか? PSリンクに対応するリファレンスは、[Stanley F. Chen and Joshua Goodman(1998)、an Empirical Study of Smoothing Techniques for Language Modeling]]です。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.