タグ付けされた質問 「nlp」

自然言語処理(NLP)は、コンピューターサイエンス、人工知能、およびコンピューターと人間(自然)言語間の相互作用に関連する言語学の分野です。そのため、NLPは人間とコンピュータの相互作用の領域に関連しています。NLPの多くの課題には自然言語の理解が含まれます。つまり、コンピュータが人間または自然言語の入力から意味を導き出すことを可能にし、他の課題には自然言語の生成が含まれます。

3
n-gramによってインデックス付けされたデータを保存するための効率的なデータベースモデル
私は、大きなテキストコーパスに存在するn-gramの非常に大きなデータベースを作成する必要があるアプリケーションに取り組んでいます。 3つの効率的な操作タイプが必要です。n-gram自体によってインデックス化されたルックアップと挿入、およびサブn-gramを含むすべてのn-gramのクエリ。 データベースは巨大なドキュメントツリーである必要があり、Mongoなどのドキュメントデータベースはうまく機能するはずですが、大規模に使用したことはありません。 Stack Exchangeの質問形式を知っているので、特定のテクノロジに関する提案を求めているのではなく、このようなものを大規模に実装するために探しているデータベースのタイプを求めていることを明確にしたいと思います。
12 nlp  databases 

3
NLTKのNERに関するヘルプ
Pythonを使用してしばらくの間NLTKで作業しています。私が直面している問題は、私のカスタムデータを使用してNLTKでNERをトレーニングするのに役立つものがないということです。彼らはMaxEntを使用し、ACEコーパスでトレーニングしました。私はウェブでたくさん検索しましたが、NLTKのNERのトレーニングに使用できる方法を見つけることができませんでした。 誰かがリンク/記事/ブログなどを提供してくれれば、NLTKのNERのトレーニングで使用されるトレーニングデータセットフォーマットに誘導できるので、その特定のフォーマットでデータセットを準備できます。そして、私が自分のデータのためにNLTKのNERをトレーニングするのに役立つリンク/記事/ブログなどに誘導された場合。 これは広く検索されており、回答が最も少ない質問です。NERと連携する将来の誰かにとって役立つかもしれません。

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
自然言語からSQLクエリ
私は「自然言語をSQLクエリに変換する」システムの開発に取り組んでいます。 同様の質問の回答を読みましたが、探していた情報を入手できませんでした。 以下は、Garima Singh、Arun SolankiによるリレーショナルデータベースのSQLクエリに自然言語を変換するアルゴリズムから取得したこのようなシステムのフローチャートです。 私は品詞タグ付けステップまで理解しました。しかし、私は残りのステップにどのようにアプローチしますか。 可能なすべてのSQLクエリをトレーニングする必要がありますか? または、品詞のタグ付けが完了したら、単語をいじってSQLクエリを作成する必要がありますか? 編集:「ユーザークエリ」から「品詞タグ付け」までのステップを正常に実装しました。 ありがとうございました。

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
文から情報を抽出する
シンプルなチャットボットを作成しています。ユーザーの応答から情報を取得したい。シナリオ例: Bot : Hi, what is your name? User: My name is Edwin. 文からエドウィンという名前を抽出したいと思います。ただし、ユーザーは次のようなさまざまな方法で応答できます。 User: Edwin is my name. User: I am Edwin. User: Edwin. 単語間の依存関係に頼ろうとしましたが、うまくいきません。 この問題に取り組むためにどのようなテクニックを使用できるかについてのアイデアはありますか? [更新しました] 名前付きエンティティの認識と、品詞のタガーとパーサーをテストしました。ほとんどのモデルは、個人名または固有名詞のエンティティの最初の文字が大文字でなければならないようにトレーニングされていることがわかりました。これは通常のドキュメントにも当てはまりますが、チャットボットには関係ありません。例えば User: my name is edwin. ほとんどのNERはこれを認識できませんでした。
11 python  nlp 

2
「意図的認識機能」はどのように機能しますか?
AmazonのAlexa、NuanceのMix、およびFacebookのWit.aiはすべて同様のシステムを使用して、テキストコマンドをインテントに変換する方法、つまりコンピューターが理解できるものを指定する方法を指定しています。これの「正式な」名前が何であるかはわかりませんが、「意図認識」と呼んでいます。基本的に、「ライトを50%の明るさに設定してください」からに進む方法lights.setBrightness(0.50)です。 それらが指定される方法は、インテントに関連付けられ、オプションで「エンティティ」(基本的にパラメータ)の場所でタグ付けされた「サンプル発話」のリストを開発者に提供することです。Wit.aiの例を次に示します。 私の質問は、これらのシステムはどのように機能するのですか?それらはすべて非常に類似しているので、私はそれらすべてが使用するいくつかの精巧な仕事があると思います。誰か知っていますか? 興味深いことに、Houndifyは正規表現に似た別のシステムを使用しています["please"] . ("activate" | "enable" | "switch on" | "turn on") . [("the" | "my")] . ("lights" | "lighting") . ["please"]。私はそれが彼らの音声認識システムのビーム検索に統合されていると思いますが、Alexa、Wit.ai、Mixは別々のSpeech-> TextおよびText-> Intentシステムを持っているようです。 編集:出発点- 非公式の音声コマンドによる人間とロボットの相互作用のメカニズムを見つけました。これは、潜在セマンティック分析と呼ばれるものを使用して発話を比較します。私はそれについて読みます。少なくともそれは私に引用ネットワークの出発点を与えました。 編集2: LSAは基本的に、テキストの各段落で使用されている単語(Bag of Words)を比較しています。この場合、単語の順序が完全に失われるため、どのようにうまく機能するかわかりません。おそらく、これらの種類のコマンドでは、単語の順序はそれほど重要ではありません。 編集3: 非表示のトピックマルコフモデルは、興味深いかもしれないように見えます。

1
文字シーケンスが英単語かノイズかを判別する方法
将来の予測のために単語リストからどのような機能を抽出しようとしますか?それは既存の単語ですか、それとも単なる文字の混乱ですか? そこで見つけたタスクの説明があります。 あなたは与えられた単語が英語であるかどうかに答えることができるプログラムを書かなければなりません。これは簡単です—辞書で単語を検索する必要があるだけです—しかし、重要な制限があります。プログラムは64 KiBを超えてはいけません。 そのため、問題を解決するためにロジスティック回帰を使用することは可能だと思いました。私はデータマイニングの経験があまりありませんが、その仕事は私にとって興味深いものです。 ありがとう。

1
小さなテキストファイルにword2vecを適用する
私はword2vecがまったく新しいので、plsは私と一緒にそれに耐えます。私はテキストファイルのセットを持っています。それぞれに1000〜3000のツイートのセットが含まれています。共通のキーワード( "kw1")を選択し、word2vecを使用して "kw1"に意味的に関連する用語を見つけたいと考えています。たとえば、キーワードが「apple」の場合、入力ファイルに基づいて「ipad」、「os」、「mac」などの関連用語が表示されます。したがって、この「kw1」の関連用語のセットは、word2vecが個々のファイルでトレーニングされるため(たとえば、5つの入力ファイル、各ファイルでword2vecを5回実行)、入力ファイルごとに異なります。 私の目標は、他の目的で使用される共通のキーワード( "kw1")が指定された各入力ファイルの関連用語のセットを見つけることです。 私の質問/疑問は: このようなタスクにword2vecを使用することには意味がありますか?入力ファイルのサイズが小さいことを考慮して使用するのは技術的に正しいですか? :私はcode.google.comからコードをダウンロードしているhttps://code.google.com/p/word2vec/と、次のようにちょうどそれに予行演習を与えています: time ./word2vec -train $file -output vectors.bin -cbow 1 -size 200 -window 10 -negative 25 -hs 1 -sample 1e-3 -threads 12 -binary 1 -iter 50 ./distance vectors.bin 私の結果から、「距離」ツールを使用して関連する用語を「kw1」に取得すると、多くのノイズの多い用語(ストップワード)が表示されることがわかりました。そのため、ストップワードやユーザーの言及など、その他のノイズの多い用語は削除しました。しかし、word2vecがクリーンな入力データを必要とすることはどこにもありません...? どのようにして正しいパラメータを選択しますか?「-window」、「-iter」などのパラメーターを変更すると、(距離ツールの実行による)結果が大きく異なることがわかります。パラメータの正しい値を見つけるには、どの手法を使用すればよいですか。(私はデータセットをスケールアップするので、手動で試行錯誤することはできません)。

4
word2vecを使用して目に見えない単語を識別し、それらをすでにトレーニングされたデータに関連付ける方法
私はword2vec gensimモデルに取り組んでいて、それが本当に面白いと思いました。私は、モデルでチェックしたときに未知の/目に見えない単語が、トレーニングされたモデルから同様の用語を取得できる方法を見つけることに興味があります。 これは可能ですか?これのためにword2vecを微調整できますか?または、トレーニングコーパスには、類似性を見つけたいすべての単語が必要です。

2
ハッシュベクトライザーとtfidfベクトライザーの違いは何ですか
テキストドキュメントのコーパスを各ドキュメントの単語ベクトルに変換しています。私が使用してこれを試してみたTfidfVectorizerとHashingVectorizerを a HashingVectorizerはIDFaのようにスコアを考慮しないことを理解してTfidfVectorizerいます。こことここでHashingVectorizer説明されているように、私がまだaを使用している理由は、巨大なデータセットを処理する際の柔軟性です。(私の元のデータセットには3000万のドキュメントがあります) 現在、私は45339のドキュメントのサンプルを使用しているので、aを使用することTfidfVectorizerもできます。同じ45339ドキュメントでこれら2つのベクトライザーを使用すると、取得する行列が異なります。 hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape) ハッシュマトリックスの形状(45339、1048576) tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape) tfidfマトリックス形状(45339、663307) a HashingVectorizerとaの違いTfidfVectorizer、およびこれらの行列のサイズが異なる理由、特に語句/用語の数がよくわかります。

3
NERの教師なし機能学習
私はCRFアルゴリズムを使用してNERシステムを実装し、非常に良い結果が得られた手作りの機能を使用しました。事は私がPOSタグや補題を含む多くの異なる機能を使用したということです。 今度は、異なる言語で同じNERを作成したいと思います。ここでの問題は、POSタグと補題を使用できないことです。ディープラーニングと教師なし機能学習に関する記事を読み始めました。 私の質問は: CRFアルゴリズムによる教師なし特徴学習の方法を使用することは可能ですか?誰かがこれを試して、良い結果を得ましたか?この問題に関する記事やチュートリアルはありますか? 私はまだこの機能作成方法を完全に理解していないので、機能しないものに多くの時間を費やしたくありません。だからどんな情報も本当に役立つでしょう。ディープラーニングに基づいてNERシステム全体を作成することは、今のところ少し重要です。

3
自然言語クエリの処理方法は?
自然言語のクエリについて知りたいです。スタンフォードには、自然言語を処理するための強力なソフトウェアのセットがあるようです。また、Apache OpenNLPライブラリ、およびText EngineeringのGeneral Architectureも見ました。 自然言語処理には信じられないほど多くの用途があり、これらのプロジェクトのドキュメントをすばやく吸収することは困難です。 少し単純化して、簡単な質問のSQLへの基本的な変換を実行するために必要なタスクの概要を説明できますか? 私のフローチャートの最初の四角形は少し謎です。 たとえば、私は知りたいかもしれません: How many books were sold last month? そして、私はそれを Select count(*) from sales where item_type='book' and sales_date >= '5/1/2014' and sales_date <= '5/31/2014'
11 nlp 

2
TF-IDFによるWord2Vec埋め込み
(たとえば、gensimを使用して)word2vecモデルをトレーニングするときは、単語/文のリストを指定します。しかし、たとえばTF-IDFを使用して計算された単語の重みを指定する方法はないようです。 ワードベクトルの埋め込みに関連するTF-IDFウェイトを乗算する通常の方法はありますか?あるいは、word2vecはこれらを何らかの形で有機的に利用できますか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.