タグ付けされた質問 「natural-language」

自然言語処理は、言語学、人工知能、機械学習、人間の言語の処理と理解を目的とした統計の一連の手法です。

3
リカレントニューラルネットワークと再帰的ニューラルネットワーク:NLPのどちらが良いですか?
リカレントニューラルネットワークと再帰ニューラルネットワークがあります。通常、両方とも同じ頭字語RNNで示されます。ウィキペディアによると、リカレントNNは実際には再帰NNですが、説明は本当にわかりません。 さらに、私はどちらが自然言語処理のために優れているか(例などを使って)見つけることができないようです。事実、SocherはチュートリアルでNLPにRecursive NNを使用していますが、再帰ニューラルネットワークの適切な実装を見つけることができず、Googleで検索すると、ほとんどの回答がRecurrent NNに関するものです。 それに加えて、NLPにより適した別のDNNがありますか、それともNLPタスクに依存しますか?Deep Belief NetsまたはStacked Autoencoders?(私はNLPでConvNetsの特定のユーティリティを見つけていないようで、ほとんどの実装はマシンビジョンを念頭に置いています)。 最後に、PythonやMatlab / Octaveではなく、C ++(GPUサポートがある場合はさらに良い)またはScala(Sparkサポートがある場合は良い)のDNN実装を本当に好むでしょう。 Deeplearning4jを試しましたが、絶えず開発されており、ドキュメントは少し時代遅れであり、動作させることができないようです。残念なことに、それは物事のやり方のような「ブラックボックス」を持っているので、scikit-learnやWekaにとてもよく似ています。

7
初心者向けのニューラルネットワークリファレンス(教科書、オンラインコース)
ニューラルネットワークを学びたいです。私は計算言語学者です。統計的な機械学習のアプローチを知っており、Pythonでコーディングできます。 私はその概念から始め、計算言語学の観点から役に立つかもしれない1つまたは2つの人気のあるモデルを知っています。 参考のためにWebをブラウズし、いくつかの本や資料を見つけました。 リプリー、ブライアンD.(1996)パターン認識とニューラルネットワーク、ケンブリッジ Bishop、CM(1995)パターン認識のためのニューラルネットワーク、オックスフォード:オックスフォード大学出版局。 いくつかのリンクなど、この論文、これらのコースノート(トロント大学の心理学科)、これらのコースノート(ウィスコンシンコンピュータサイエンスの大学)と、このスライドショー(Facebookの研究)。 Courseraコースは、だれかが関連する何かを知っている場合、一般的に素晴らしいです。私は明快な言語と豊富な例のある資料を好みます。

5
LDA対word2vec
単語の類似性を計算するためのLatent Dirichlet Allocationとword2vecの類似性を理解しようとしています。 私が理解しているように、LDAは単語を潜在トピックの確率のベクトルにマッピングし、word2vecはそれらを実数のベクトルにマッピングします(点ごとの相互情報の特異値分解に関連します。O。Levy 、Y. Goldberg、 "Neural Word Embedding暗黙的な行列因子分解として」 ; word2vecの仕組みも参照してください)。 理論的な関係(一方を他方の一般化、またはバリエーションと見なすことができます)と実用(一方を使用して他方を使用しない場合)の両方に興味があります。 関連: ドキュメント間の距離を計算する標準的な方法は何ですか?-DataScience.SE

3
文書全体に単語の埋め込みを適用して、特徴ベクトルを取得します
ワード埋め込みを使用して、教師あり学習での使用に適した特徴ベクトルにドキュメントをマッピングするにはどうすればよいですか? ワード埋め込みは各ワードをマップベクターにここで、一部ではない余りに多数(例えば、500)です。人気のある単語の埋め込みには、word2vecとGloveが含まれます。V ∈ Rの Dの DwwwV ∈Rdv∈Rdv \in \mathbb{R}^dddd 教師あり学習を適用してドキュメントを分類したい。現在、bag-of-words表現を使用して各ドキュメントを特徴ベクトルにマッピングし、市販の分類器を適用しています。単語の埋め込みに含まれるセマンティック知識を活用するために、単語の特徴ベクトルを既存の事前学習済みの単語の埋め込みに基づくものに置き換えたいと思います。それを行う標準的な方法はありますか? いくつかの可能性を想像できますが、最も意味のあるものがあるかどうかはわかりません。私が検討した候補アプローチ: ドキュメント内の各単語のベクトルを計算し、それらすべてを平均化することができました。ただし、これは多くの情報を失う可能性があるようです。たとえば、word-of-words表現では、分類タスクに非常に関連性のある単語がいくつかあり、ほとんどの単語が無関係である場合、分類子はそれを簡単に学習できます。文書内のすべての単語のベクトルを平均すると、分類子にはチャンスがありません。 すべての単語のベクトルを連結しても機能しません。これは、固定サイズの特徴ベクトルにならないためです。また、単語の特定の配置に過度に敏感になるため、悪い考えのように思えます。 単語の埋め込みを使用して、すべての単語の語彙をクラスタの固定セット、たとえば1000個のクラスタにクラスタ化できます。この場合、ベクトルのコサイン類似度を単語の類似度の尺度として使用します。次に、バッグオブワードの代わりに、バッグオブクラスターを使用することができます。分類器に提供する特徴ベクトルは、1000 番目のベクトルにすることができ、番目のコンポーネントはドキュメント内の単語の数をカウントしますクラスター一部です。私私私i私私i 単語与えられると、これらの単語の埋め込みにより、上位20個の最も類似した単語とそれらの類似度スコアセットを計算できます。これを使用して、単語のような特徴ベクトルを適応させることができました。私は単語を見たとき、単語に対応する要素インクリメントに加えて、により、Iはまた、単語に対応する要素増分ができによって、単語に対応する要素増分により、というように。w 1、… 、w 20 s 1、… 、s 20 w w 1 w 1 s 1 w 2 s 2wwww1、… 、w20w1、…、w20w_1,\dots,w_{20}s1、… 、s20s1、…、s20s_1,\dots,s_{20}wwwwww111w1w1w_1s1s1s_1w2w2w_2s2s2s_2 文書の分類に適した特定のアプローチはありますか? パラグラフ2vecまたはdoc2vecを探していません。それらは大規模なデータコーパスのトレーニングを必要とし、私は大規模なデータコーパスを持っていません。代わりに、既存の単語埋め込みを使用したいと思います。


3
隠れマルコフモデルと条件付きランダムフィールドの直感的な違い
HMM(Hidden Markov Models)は生成モデルであり、CRFは識別モデルであることを理解しています。また、CRF(条件付きランダムフィールド)がどのように設計され使用されているかも理解しています。私が理解していないのは、それらがHMMとどのように異なるかです。HMMの場合、前のノード、現在のノード、および遷移確率でのみ次の状態をモデル化できますが、CRFの場合はこれを実行でき、任意の数のノードを接続して依存関係を形成できますまたはコンテキスト?私はここで正しいですか?

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

2
コサイン類似度はl2正規化ユークリッド距離と同一ですか?
同一の意味。ベクトルuとベクトルVのセット間の類似度ランキングで同一の結果を生成します。 パラメータとして距離測度(ユークリッド距離、コサイン類似度)および正規化手法(なし、l1、l2)を持つベクトル空間モデルがあります。私の理解では、設定[cosine、none]の結果は[euclidean、l2]と同じか、少なくとも実際には似ているはずですが、そうではありません。 実際には、システムにまだバグがある可能性が十分にあります。または、ベクターに関して重大な問題がありますか? 編集:ベクトルはコーパス内のドキュメントの単語数に基づいていることを忘れていました。クエリドキュメント(ワードカウントベクトルで変換する)が与えられた場合、コーパスから最も類似したドキュメントを見つけたいと思います。 それらのユークリッド距離を計算することは簡単な測定ですが、私が取り組んでいる種類のタスクでは、長さのみが異なるベクトルは依然として等しいと見なされるため、コサイン類似度が類似度インジケータとしてしばしば好まれます。距離/コサインの類似性が最小のドキュメントが最も類似していると見なされます。

3
トピックモデルと単語の共起法
LDAのような人気のあるトピックモデルは通常、同じトピック(クラスター)に共起する傾向がある単語をクラスター化します。 このようなトピックモデルと、PMIのような他の単純な共起ベースのクラスタリングアプローチの主な違いは何ですか?(PMIはPointwise Mutual Informationの略で、特定の単語と共起する単語を識別するために使用されます。)

1
センチメント分析に段落ベクトルを使用した最新のパフォーマンスが報告されていますか?
LeとMikolovによるICML 2014の論文「Sentences and Documentsの分散表現」の結果に感銘を受けました。「パラグラフベクトル」と呼ばれる彼らが説明する技術は、word2vecモデルの拡張に基づいて、任意の長さのパラグラフ/ドキュメントの教師なし表現を学習します。この技術は、この手法を使用したセンチメント分析に関する最新のパフォーマンスを報告しています。 従来のバッグオブワード表現に代わるものとして、他のテキスト分類問題でこの手法を評価したいと考えていました。しかし、私はword2vec Googleグループのスレッドで2番目の著者の投稿を見つけて、一時停止しました。 夏の間にQuocの結果を再現しようとしました。IMDBデータセットのエラー率は、約9.4%〜10%に達する可能性があります(テキストの正規化の程度によって異なります)。しかし、Quocの論文での報告に近いものは得られませんでした(7.4%のエラー、これは大きな違いです)...もちろん、Quocにコードについて尋ねました。彼はそれを公開すると約束したが、今のところ何も起こっていない。... Quocの結果は実際には再現性がないと考え始めています。 これらの結果を再現することに成功した人はいますか?


2
自然言語処理が機械学習ドメインに分類されないのはなぜですか?[閉まっている]
現在のところ、この質問はQ&A形式には適していません。回答は、事実、参考文献、または専門知識によってサポートされると予想されますが、この質問は、議論、議論、世論調査、または広範な議論を求める可能性があります。この質問を改善し、おそらく再開できると思われる場合は、ヘルプセンターをご覧ください。 7年前に閉鎖されました。 私は多くの本やウェブでそれと出会います。自然言語処理と機械学習は、人工知能の異なるサブセットであると言われています。それはなぜです?機械学習アルゴリズムにサウンドパターンを供給することで、自然言語処理の結果を達成できます。それでは、違いは何ですか?

3
Kneser-Neyスムージングでは、見えない単語はどのように処理されますか?
私が見たものから、(二次)Kneser-Ney平滑化式は何らかの形で次のように与えられます P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} 正規化係数次のように与えられますλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} および単語w_nの継続確率Pcont(wn)Pcont(wn)P_{cont}(w_n)wnwnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} ここで、N1+(∙w)N1+(∙w)N_{1+}\left(\bullet w\right)は、コンテキストwの数www、または単純に、特定の単語wの前にある個別の単語\ bulletの数です。私が理解したことから、式は再帰的に適用できます。∙∙\bulletwww 現在、これはさまざまなnグラム長の未知のコンテキストで既知の単語を適切に処理しますが、説明されていないのは、辞書にない単語がある場合の対処方法です。ユニグラムの再帰ステップでP_ {cont}(/)= P ^ 0_ {KN}(/)= \ …

3
短いドキュメントのトピックモデル
この質問に触発されて、私は非常に短いテキストの大規模なコレクションのトピックモデルで何か作業が行われたかどうか疑問に思っています。私の直感では、Twitterはそのようなモデルの自然なインスピレーションになるはずです。ただし、いくつかの限られた実験から、標準のトピックモデル(LDAなど)は、この種のデータでは非常にパフォーマンスが低いようです。 誰もがこの分野で行われた仕事を知っていますか?このホワイトペーパーでは、LDAをTwitterに適用する方法について説明しますが、ショートドキュメントのコンテキストでより優れたパフォーマンスを発揮する他のアルゴリズムがあるかどうかに興味があります。

2
n-gramは何nで逆効果になりますか?
自然言語処理を行う場合、コーパスを取得して、nのシーケンスで発生する次の単語の確率を評価できます。nは通常2または3(バイグラムとトライグラム)として選択されます。 特定のコーパスをそのレベルで一度分類するのにかかる時間を考えると、n番目のチェーンのデータの追跡が逆効果になる既知のポイントはありますか?または、(データ構造)ディクショナリから確率を検索するのにかかる時間を考えてみてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.