タグ付けされた質問 「natural-language-process」

3
自然言語からSQLクエリ
私は「自然言語をSQLクエリに変換する」システムの開発に取り組んでいます。 同様の質問の回答を読みましたが、探していた情報を入手できませんでした。 以下は、Garima Singh、Arun SolankiによるリレーショナルデータベースのSQLクエリに自然言語を変換するアルゴリズムから取得したこのようなシステムのフローチャートです。 私は品詞タグ付けステップまで理解しました。しかし、私は残りのステップにどのようにアプローチしますか。 可能なすべてのSQLクエリをトレーニングする必要がありますか? または、品詞のタグ付けが完了したら、単語をいじってSQLクエリを作成する必要がありますか? 編集:「ユーザークエリ」から「品詞タグ付け」までのステップを正常に実装しました。 ありがとうございました。

2
特定の単語を名前、携帯電話番号、住所、電子メール、州、郡、市などとして分類するために使用される機械/ディープラーニング/ nlpテクニック
一連の単語または文字列をスキャンし、機械学習またはディープラーニングを使用して、それらを名前、携帯電話番号、住所、都市、州、国、およびその他のエンティティとして分類できるインテリジェントモデルを生成しようとしています。 私はアプローチを探していましたが、残念ながら、どのようなアプローチを取るべきかわかりませんでした。文字列が名前であるか都市であるかなどを予測するために、バッグオブワードモデルとグローブワードの埋め込みを試しました。 しかし、私はバッグオブワードモデルでは成功しませんでした。GloVeには、埋め込み例でカバーされていない名前がたくさんあります。-laurenはGloveに存在し、laurenaは存在しません 私はこの投稿をここで見つけましたが、それは合理的な答えでしたが、NLPとSVMがそれを解決するために使用されたという事実を除いて、その問題を解決するために使用されたアプローチはできませんでした。 どんな提案もありがたいです よろしくお願いいたします。SaiCharan Adurthi。

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 


1
単純ベイズの理解:条件付き確率の計算
感情分析のタスクとして、で表されるクラスと機能とします。ccciii 各クラスの条件付き確率は次のように表すことができます ここで、は各特徴を表し、はクラスです我々は持っています。次に、経験的に、 ことができます。ここで:P(c|wi)=P(wi|c)⋅P(c)P(wi)P(c|wi)=P(wi|c)⋅P(c)P(wi)P(c | w_i) = \frac{P(w_i|c) \cdot P(c)}{P(w_i)}wiwiw_icccP(wi|c)=ncincP(wi|c)=ncincP(w_i|c) = \frac{n_{ci}}{n_c} P(wi)=ninP(wi)=ninP(w_i) = \frac{n_{i}}{n}P(c)=ncnP(c)=ncnP(c) = \frac{n_c}{n} nnnは、すべてのクラスの特徴の総数です。 ncincin_{ci}は、クラスその特徴カウント数を表し。iiiccc ncncn_cは、クラスの機能の総数です。 ninin_iは、すべてのクラスの機能の総数です。 上記の私の理解は正しいですか?したがって、各単語のこれらの確率を考えると、私は単純なベイズの仮定です。単語は独立しているため、特定のクラスのドキュメントの各単語を単純に乗算します。つまり、ここで、はドキュメント内の単語数です。これは正しいです?P(c|wi)P(c|wi)P(c|w_i)∏P(c|wi),i∈N∏P(c|wi),i∈N\prod P(c|w_i), i \in NNNN 条件付き確率を数値で実際に計算するには、次のことを行えば十分でしょうか。 P(c|wi)=P(wi|c)⋅P(c)P(wi)=ncinc⋅ncn⋅nni=nciniP(c|wi)=P(wi|c)⋅P(c)P(wi)=ncinc⋅ncn⋅nni=nciniP(c | w_i) = \frac{P(w_i|c) \cdot P(c)}{P(w_i)} = \frac{n_{ci}}{n_c} \cdot \frac{n_c}{n}\cdot \frac{n}{n_i} = \frac{n_{ci}}{n_i} 方程式の最後の部分は、かなり複雑な確率を計算するには単純すぎるように思えるため、私には少し疑わしく見えます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.