タグ付けされた質問 「natural-language」

自然言語処理は、言語学、人工知能、機械学習、人間の言語の処理と理解を目的とした統計の一連の手法です。


1
スパース性のこの解釈は正確ですか?
パッケージのremoveSparseTerms関数のドキュメントによるとtm、これはスパース性が伴うものです: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. では、これがsparse.99に等しいかどうかを正しく解釈すると、データの最大1%にしか出現しない用語が削除されますか?

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
逆ドキュメント頻度で1を追加する理由
私の教科書はidfをとしてリストしてい。log(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN:ドキュメントの数 ntntn_t:用語を含むドキュメントの数ttt ウィキペディアは、この公式を実際の平滑化バージョンとしてリストしてい。それは私が理解しているものです:からで、直感的に思えます。 しかし、はからこれは奇妙に見えます... 言語モデリングからの平滑化については少し知っていますが、分子に何かを追加します確率質量について心配しているので、分母も同様です。しかし、追加するだけでは意味がありません。ここで何を達成しようとしていますか?log(Nnt)log(Nnt)log(\frac{N}{n_t})log(NN)=0log(NN)=0log(\frac{N}{N})=0∞∞\inftylog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t})log(1+1)log(1+1)log(1+1)∞∞\infty111

1
LSIのコンテキストでの特異値分解の理解
私の質問は、一般的に特異値分解(SVD)、特に潜在的意味論的索引付け(LSI)についてです。 たとえば、7つのドキュメントに対して5ワードの頻度を含むとします。Aword×documentAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') 私はのための行列因数分解取得 SVDを使用して:A = U \ CDOT D \ CDOT V ^ T。AAAA=U⋅D⋅VTA=U⋅D⋅VTA = U \cdot D \cdot V^T s = svd(A) D = diag(s$d) # singular value matrix S = diag(s$d^0.5 ) # …

1
計量経済学のためのテキストマイニング/自然言語処理ツールの使用
この質問がここで完全に適切かどうかはわかりませんが、適切でない場合は削除してください。 私は経済学の大学院生です。社会保険の問題を調査するプロジェクトの場合、適格性の評価を扱う多数の行政訴訟(> 20万件)にアクセスできます。これらのレポートは、個別の管理情報にリンクされている可能性があります。これらのレポートから、定量分析に使用できる情報を抽出したいと思います。理想的には、grep/ awkなどを使用した単純なキーワード/正規表現検索以上のものです。 このための自然言語処理はどの程度役に立ちますか?他の有用なテキストマイニングアプローチは何ですか?私が理解しているところによると、これは大きなフィールドであり、コーパスとして使用するにはレポートの一部を変換する必要があると考えられます。文献や方法に慣れるために、少し時間をかける価値はありますか?それは役に立ちますか?同様のことが以前に行われましたか?報酬の点でそれは価値がありますか?すなわち、経済学の実証的研究のためにNLPを使用して潜在的に有用な情報を抽出できますか? 一部のレポートを読んで準備するために誰かを雇うための資金が存在する可能性があります。これはより大きなプロジェクトであり、より多くの資金を申請する可能性があります。必要に応じて、トピックの詳細を提供できます。複雑になる可能性の1つは、言語が英語ではなくドイツ語であることです。 資格に関しては、私は主に計量経済学の訓練を受けており、Hastieらのレベルでの計算統計についてある程度の知識があります。本。私はPython、R、Stataを知っており、おそらくMatlabにすぐに慣れるでしょう。ライブラリを考えると、Pythonがこれに最適なツールであると思います。これに関連する場合、定性的な方法のトレーニングはまったくありませんが、私が連絡をとることができる人を知っています。 私はこれに関する任意の入力を喜んでいます。つまり、これが潜在的に有用かどうか、もしそうなら、どこから読み始めるべきか、そしてどのツールに特に焦点を当てるべきか、です。

1
文書要約における対数尤度比
私は最初にこれをスタックオーバーフローで尋ね、このサイトを参照したので、ここに行きます: コンテンツ選択/抽出に基づくドキュメント要約の監視されていない方法を実装しています。私の教科書が「対数尤度比」と呼んでいるものに戸惑っています。Jurafsky&Martin 著の 『Speech and Language Processing』は、そのように簡単に説明しています。 一般にlambda(w)と呼ばれる単語のLLRは、両方のコーパスで等しい確率を想定して入力とバックグラウンドコーパスの両方でwを観測する確率と、異なる確率を想定して両方でwを観測する確率との比です入力と背景コーパスのw。 それを分解すると、分子は次のようになります。「入力と背景コーパスの両方で、両方のコーパスで等しい確率を想定してwを観測する確率」-ここで使用する確率を計算するにはどうすればよいですか? そして、分母:「入力と背景コーパスにおけるwの異なる確率を仮定して、両方でwを観測する確率」。-これは、入力に出現する単語の確率にコーパスに出現する単語の確率を掛けたものと同じくらい単純ですか?例: (count(word、input)/入力の合計単語数)*(count(word、corpus)/コーパスの合計単語数) 私の本が参照している論文「驚きと偶然の統計の正確な方法(1993年の督促)」を調べてきましたが、抽出ベースの要約で個々の単語のLLR値を計算する問題に関連するのが難しいと感じています。ここでの説明は本当にありがたいです。

4
ディープニューラルネットワークのセノンは何ですか?
私はこの論文を読んでいます。彼らがCD-DNN-HMM(隠れマルコフモデルを使用したコンテキスト依存のディープニューラルネットワーク)を使用するskypeトランスレータです。私はプロジェクトのアイデアと彼らが設計したアーキテクチャを理解することができますが、セノンは何なのかわかりません。定義を探していましたが、何も見つかりませんでした —電話認識に深い信念ネットワークを使用する際の最近の進歩を活用する、大語彙音声認識(LVSR)の新しいコンテキスト依存(CD)モデルを提案します。出力としてセノン(結ばれたトライフォン状態)上の分布を生成するようにDNNをトレーニングする事前トレーニング済みのディープニューラルネットワークの隠れマルコフモデル(DNN-HMM)ハイブリッドアーキテクチャについて説明します これについて説明をいただければ幸いです。 編集: この定義はこのホワイトペーパーで見つかりました。 マルコフ状態でサブフォネティックイベントをモデル化し、音声の隠れマルコフモデルの状態を基本的なサブフォネティック単位であるsenoneとして扱うことを提案します。単語モデルは状態依存のセノンの連結であり、セノンは異なる単語モデル間で共有できます。 最初の論文のアーキテクチャの隠しマルコフモデル部分で使用されていると思います。それらはHMMの状態ですか?DNNの出力?


1
ニューラルネットワークで入力ベクトルの長さの変更を処理する方法
文字のシーケンスを入力ベクトルとして使用して、ニューラルネットワークをトレーニングします。学習例は長さが異なるため、それらを表現する方法がわかりません。 ここに名前の2つのシーケンスの例があるとします。 john doe maurice delanoe 最初の例は長さ8、2番目の例は長さ15です。 これらの両方の例を学ぶ方法はありますか?同じ学習システムでサイズ8と15の両方の入力ベクトルを使用することを意味します。 ご協力いただきありがとうございます !

1
ナイーブベイズとリカレントニューラルネットワーク(LSTM)の違い
テキストの感情分析を実行したい、いくつかの記事を通過した、それらのいくつかは「Naive Bayes」を使用しており、その他は「Recurrent Neural Network(LSTM)」ですが、一方で、感情分析用のpythonライブラリを見ましたnltkです。それは「ナイーブベイズ」を使用しています誰もが2つの使用の違いは何であるか説明できますか? 私もこの投稿を通過しましたが、両方については明確ではありません。 ベイズネットワーク、ニューラルネットワーク、決定木、ペトリネットの違い

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

1
言語モデリング:合計1をなぜそれほど重要なのですか?
スペル修正、機械翻訳、音声認識などの多くの自然言語処理アプリケーションでは、言語モデルを使用しています。言語モデルは通常、単語のシーケンス(n-gram)が大規模なコーパスで発生する頻度をカウントし、そのカウントを正規化して確率を作成することによって作成されます。目に見えないn-gramを説明するために、モデルで証明されているn-gramから確率質量の一部を取り、この質量を低次のn-gram(短い単語シーケンス)に分配する平滑化方法(ここにリストされているいくつかを参照)を使用します)バックオフ確率。 計算では分布を確率として維持する必要があるため、平滑化手法の多くは数学的に複雑になります(合計は1にする必要があります)。 この制約の理由は何ですか?他の種類のスコアではなく、厳密な確率を予測に使用する利点は何ですか? PSリンクに対応するリファレンスは、[Stanley F. Chen and Joshua Goodman(1998)、an Empirical Study of Smoothing Techniques for Language Modeling]]です。

1
「壊滅的な忘却」を回避する方法は?
Michael Coniball(Spacyの作成者)がこの記事を読んだとき、彼は「破滅的な忘却」問題について語っています。 ここで彼は、新しいラベルを追加したり、特定のエラーを修正したりするために事前トレーニング済みモデルを微調整したい場合、「破滅的な忘却」問題(一般性を失う)を引き起こす可能性があると述べています。これと戦うために、彼は疑似リハーサルと呼ばれる技術を提案します。彼は、初期モデルで多くの例を予測し、それらを微調整データを通して混合し、それをモデルの目標として使用すると述べています。 つまり、これは、初期モデルによって生成された代わりにを使用して、新しく取得したデータポイントの新しい値と混合し、それを使用してモデル?Y^(Th e PR EのDi c t e dVa l u e )Y^(ThePred私ctedValあなたe)\hat{Y}(The Predicted Value)Y(T時間EとGのR O U N DTR U T H )Y(TheGroあなたんdTrあなたth)Y(The Ground Truth)YYY 私は正しいですか?誰かが詳しく説明できますか?

2
word2vecの元の目的関数に対する負のサンプリング(NS)目的関数の関係はどのようなものですか?
私は、標準/有名な読んでいたword2vecするためのモデルをしてstandordのメモによるとcs224n:から目的関数の変化を JO R I GI N L= −Σj = 0 、j ≠ m2 メートルあなた⊤c − m + jvc+ 2 m l o g(Σk = 1| V|e x p (あなた⊤kvc))Joriginal=−∑j=0,j≠m2muc−m+j⊤vc+2mlog(∑k=1|V|exp(uk⊤vc))J_{original} = -\sum^{2m}_{j=0,j\neq m} u^\top_{c-m+j} v_c + 2m log \left( \sum^{|V|}_{k=1} exp(u^{\top}_k v_c) \right) に: JNS1= − l o gσ(あなた⊤c − m …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.