データサイエンス nlp

3

n-gramによってインデックス付けされたデータを保存するための効率的なデータベースモデル

私は、大きなテキストコーパスに存在するn-gramの非常に大きなデータベースを作成する必要があるアプリケーションに取り組んでいます。 3つの効率的な操作タイプが必要です。n-gram自体によってインデックス化されたルックアップと挿入、およびサブn-gramを含むすべてのn-gramのクエリ。データベースは巨大なドキュメントツリーである必要があり、Mongoなどのドキュメントデータベースはうまく機能するはずですが、大規模に使用したことはありません。 Stack Exchangeの質問形式を知っているので、特定のテクノロジに関する提案を求めているのではなく、このようなものを大規模に実装するために探しているデータベースのタイプを求めていることを明確にしたいと思います。

12 nlp databases

3

NLTKのNERに関するヘルプ

Pythonを使用してしばらくの間NLTKで作業しています。私が直面している問題は、私のカスタムデータを使用してNLTKでNERをトレーニングするのに役立つものがないということです。彼らはMaxEntを使用し、ACEコーパスでトレーニングしました。私はウェブでたくさん検索しましたが、NLTKのNERのトレーニングに使用できる方法を見つけることができませんでした。誰かがリンク/記事/ブログなどを提供してくれれば、NLTKのNERのトレーニングで使用されるトレーニングデータセットフォーマットに誘導できるので、その特定のフォーマットでデータセットを準備できます。そして、私が自分のデータのためにNLTKのNERをトレーニングするのに役立つリンク/記事/ブログなどに誘導された場合。これは広く検索されており、回答が最も少ない質問です。NERと連携する将来の誰かにとって役立つかもしれません。

12 machine-learning python nlp

1

LSTMセルはいくつ使用すればよいですか？

使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則（または実際の規則）はありますか？具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。私が定義する分類問題があると仮定してください： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか？ 4*((n+1)*m + m*m)*c cセルの数はどこですか？これに基づいています：LSTMネットワークのパラメーターの数を計算する方法？私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

自然言語からSQLクエリ

私は「自然言語をSQLクエリに変換する」システムの開発に取り組んでいます。同様の質問の回答を読みましたが、探していた情報を入手できませんでした。以下は、Garima Singh、Arun SolankiによるリレーショナルデータベースのSQLクエリに自然言語を変換するアルゴリズムから取得したこのようなシステムのフローチャートです。私は品詞タグ付けステップまで理解しました。しかし、私は残りのステップにどのようにアプローチしますか。可能なすべてのSQLクエリをトレーニングする必要がありますか？または、品詞のタグ付けが完了したら、単語をいじってSQLクエリを作成する必要がありますか？編集：「ユーザークエリ」から「品詞タグ付け」までのステップを正常に実装しました。ありがとうございました。

12 machine-learning nlp sql natural-language-process

3

Python用のすぐに使える優れた言語モデルはありますか？

私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。すぐに使用できるPythonのトレーニング済み言語モデルはありますか？のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン（ニュースだけでなく）の結果を実際に信頼できるもの

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

文から情報を抽出する

シンプルなチャットボットを作成しています。ユーザーの応答から情報を取得したい。シナリオ例： Bot : Hi, what is your name? User: My name is Edwin. 文からエドウィンという名前を抽出したいと思います。ただし、ユーザーは次のようなさまざまな方法で応答できます。 User: Edwin is my name. User: I am Edwin. User: Edwin. 単語間の依存関係に頼ろうとしましたが、うまくいきません。この問題に取り組むためにどのようなテクニックを使用できるかについてのアイデアはありますか？ [更新しました] 名前付きエンティティの認識と、品詞のタガーとパーサーをテストしました。ほとんどのモデルは、個人名または固有名詞のエンティティの最初の文字が大文字でなければならないようにトレーニングされていることがわかりました。これは通常のドキュメントにも当てはまりますが、チャットボットには関係ありません。例えば User: my name is edwin. ほとんどのNERはこれを認識できませんでした。

11 python nlp

2

「意図的認識機能」はどのように機能しますか？

AmazonのAlexa、NuanceのMix、およびFacebookのWit.aiはすべて同様のシステムを使用して、テキストコマンドをインテントに変換する方法、つまりコンピューターが理解できるものを指定する方法を指定しています。これの「正式な」名前が何であるかはわかりませんが、「意図認識」と呼んでいます。基本的に、「ライトを50％の明るさに設定してください」からに進む方法lights.setBrightness(0.50)です。それらが指定される方法は、インテントに関連付けられ、オプションで「エンティティ」（基本的にパラメータ）の場所でタグ付けされた「サンプル発話」のリストを開発者に提供することです。Wit.aiの例を次に示します。私の質問は、これらのシステムはどのように機能するのですか？それらはすべて非常に類似しているので、私はそれらすべてが使用するいくつかの精巧な仕事があると思います。誰か知っていますか？興味深いことに、Houndifyは正規表現に似た別のシステムを使用しています["please"] . ("activate" | "enable" | "switch on" | "turn on") . [("the" | "my")] . ("lights" | "lighting") . ["please"]。私はそれが彼らの音声認識システムのビーム検索に統合されていると思いますが、Alexa、Wit.ai、Mixは別々のSpeech-> TextおよびText-> Intentシステムを持っているようです。編集：出発点- 非公式の音声コマンドによる人間とロボットの相互作用のメカニズムを見つけました。これは、潜在セマンティック分析と呼ばれるものを使用して発話を比較します。私はそれについて読みます。少なくともそれは私に引用ネットワークの出発点を与えました。編集2： LSAは基本的に、テキストの各段落で使用されている単語（Bag of Words）を比較しています。この場合、単語の順序が完全に失われるため、どのようにうまく機能するかわかりません。おそらく、これらの種類のコマンドでは、単語の順序はそれほど重要ではありません。編集3：非表示のトピックマルコフモデルは、興味深いかもしれないように見えます。

11 machine-learning nlp

1

文字シーケンスが英単語かノイズかを判別する方法

将来の予測のために単語リストからどのような機能を抽出しようとしますか？それは既存の単語ですか、それとも単なる文字の混乱ですか？そこで見つけたタスクの説明があります。あなたは与えられた単語が英語であるかどうかに答えることができるプログラムを書かなければなりません。これは簡単です—辞書で単語を検索する必要があるだけです—しかし、重要な制限があります。プログラムは64 KiBを超えてはいけません。そのため、問題を解決するためにロジスティック回帰を使用することは可能だと思いました。私はデータマイニングの経験があまりありませんが、その仕事は私にとって興味深いものです。ありがとう。

11 machine-learning nlp text-mining algorithms

1

小さなテキストファイルにword2vecを適用する

私はword2vecがまったく新しいので、plsは私と一緒にそれに耐えます。私はテキストファイルのセットを持っています。それぞれに1000〜3000のツイートのセットが含まれています。共通のキーワード（ "kw1"）を選択し、word2vecを使用して "kw1"に意味的に関連する用語を見つけたいと考えています。たとえば、キーワードが「apple」の場合、入力ファイルに基づいて「ipad」、「os」、「mac」などの関連用語が表示されます。したがって、この「kw1」の関連用語のセットは、word2vecが個々のファイルでトレーニングされるため（たとえば、5つの入力ファイル、各ファイルでword2vecを5回実行）、入力ファイルごとに異なります。私の目標は、他の目的で使用される共通のキーワード（ "kw1"）が指定された各入力ファイルの関連用語のセットを見つけることです。私の質問/疑問は：このようなタスクにword2vecを使用することには意味がありますか？入力ファイルのサイズが小さいことを考慮して使用するのは技術的に正しいですか？：私はcode.google.comからコードをダウンロードしているhttps://code.google.com/p/word2vec/と、次のようにちょうどそれに予行演習を与えています： time ./word2vec -train $file -output vectors.bin -cbow 1 -size 200 -window 10 -negative 25 -hs 1 -sample 1e-3 -threads 12 -binary 1 -iter 50 ./distance vectors.bin 私の結果から、「距離」ツールを使用して関連する用語を「kw1」に取得すると、多くのノイズの多い用語（ストップワード）が表示されることがわかりました。そのため、ストップワードやユーザーの言及など、その他のノイズの多い用語は削除しました。しかし、word2vecがクリーンな入力データを必要とすることはどこにもありません...？どのようにして正しいパラメータを選択しますか？「-window」、「-iter」などのパラメーターを変更すると、（距離ツールの実行による）結果が大きく異なることがわかります。パラメータの正しい値を見つけるには、どの手法を使用すればよいですか。（私はデータセットをスケールアップするので、手動で試行錯誤することはできません）。

11 machine-learning nlp text-mining

4

word2vecを使用して目に見えない単語を識別し、それらをすでにトレーニングされたデータに関連付ける方法

私はword2vec gensimモデルに取り組んでいて、それが本当に面白いと思いました。私は、モデルでチェックしたときに未知の/目に見えない単語が、トレーニングされたモデルから同様の用語を取得できる方法を見つけることに興味があります。これは可能ですか？これのためにword2vecを微調整できますか？または、トレーニングコーパスには、類似性を見つけたいすべての単語が必要です。

11 nlp deep-learning word-embeddings unsupervised-learning

2

ハッシュベクトライザーとtfidfベクトライザーの違いは何ですか

テキストドキュメントのコーパスを各ドキュメントの単語ベクトルに変換しています。私が使用してこれを試してみたTfidfVectorizerとHashingVectorizerを a HashingVectorizerはIDFaのようにスコアを考慮しないことを理解してTfidfVectorizerいます。こことここでHashingVectorizer説明されているように、私がまだaを使用している理由は、巨大なデータセットを処理する際の柔軟性です。（私の元のデータセットには3000万のドキュメントがあります）現在、私は45339のドキュメントのサンプルを使用しているので、aを使用することTfidfVectorizerもできます。同じ45339ドキュメントでこれら2つのベクトライザーを使用すると、取得する行列が異なります。 hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape) ハッシュマトリックスの形状（45339、1048576） tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape) tfidfマトリックス形状（45339、663307） a HashingVectorizerとaの違いTfidfVectorizer、およびこれらの行列のサイズが異なる理由、特に語句/用語の数がよくわかります。

11 nlp scikit-learn text-mining tfidf

3

NERの教師なし機能学習

私はCRFアルゴリズムを使用してNERシステムを実装し、非常に良い結果が得られた手作りの機能を使用しました。事は私がPOSタグや補題を含む多くの異なる機能を使用したということです。今度は、異なる言語で同じNERを作成したいと思います。ここでの問題は、POSタグと補題を使用できないことです。ディープラーニングと教師なし機能学習に関する記事を読み始めました。私の質問は： CRFアルゴリズムによる教師なし特徴学習の方法を使用することは可能ですか？誰かがこれを試して、良い結果を得ましたか？この問題に関する記事やチュートリアルはありますか？私はまだこの機能作成方法を完全に理解していないので、機能しないものに多くの時間を費やしたくありません。だからどんな情報も本当に役立つでしょう。ディープラーニングに基づいてNERシステム全体を作成することは、今のところ少し重要です。

11 nlp text-mining feature-extraction

3

自然言語クエリの処理方法は？

自然言語のクエリについて知りたいです。スタンフォードには、自然言語を処理するための強力なソフトウェアのセットがあるようです。また、Apache OpenNLPライブラリ、およびText EngineeringのGeneral Architectureも見ました。自然言語処理には信じられないほど多くの用途があり、これらのプロジェクトのドキュメントをすばやく吸収することは困難です。少し単純化して、簡単な質問のSQLへの基本的な変換を実行するために必要なタスクの概要を説明できますか？私のフローチャートの最初の四角形は少し謎です。たとえば、私は知りたいかもしれません： How many books were sold last month? そして、私はそれを Select count(*) from sales where item_type='book' and sales_date >= '5/1/2014' and sales_date <= '5/31/2014'

11 nlp

2

TF-IDFによるWord2Vec埋め込み

（たとえば、gensimを使用して）word2vecモデルをトレーニングするときは、単語/文のリストを指定します。しかし、たとえばTF-IDFを使用して計算された単語の重みを指定する方法はないようです。ワードベクトルの埋め込みに関連するTF-IDFウェイトを乗算する通常の方法はありますか？あるいは、word2vecはこれらを何らかの形で有機的に利用できますか？

11 machine-learning nlp word2vec language-model tfidf

3

科学計算に最適な言語[終了]

閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか？さらに、どの言語が最もパフォーマンスが高くなりますか？PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか？さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

タグ付けされた質問 「nlp」

タグ付けされた質問「nlp」