データサイエンス text

5

私は次の問題を解決しようとしています：データセットとして一連の文があり、新しい文を入力して、新しい文がデータセット内で最も類似している文を見つけたいです。例は次のようになります。新しい文：「I opened a new mailbox」データセットに基づいた予測： Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% コサインの類似性は、tf-idfと組み合わせたこれらの種類の問題を解決するために使用できることを読みました（およびRNNは基本的な方法に大きな改善をもたらすべきではありません）、またはword2vecも同様の問題に使用されます。これらもこの特定のケースで実際に使用可能ですか？これを解決する他のテクニック/アルゴリズムはありますか（できればPythonとSKLearnを使用しますが、TensorFlowについても学ぶことができます）？

15 python nlp scikit-learn similarity text

2

テキスト分類にSMOTEをどのように適用しますか？

Synthetic Minority Oversampling Technique（SMOTE）は、データセットの不均衡問題で使用されるオーバーサンプリング技術です。これまでのところ、これを一般的な構造化データに適用する方法について考えています。しかし、テキスト分類問題にそれを適用することは可能ですか？データのどの部分をオーバーサンプリングする必要がありますか？それについてはすでに別の質問がありますが、答えはありません。どこから始めればよいでしょうか？

13 unbalanced-classes text smote

1

指定された変数に直交する（相関しない）予測を生成する

私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。このコード： import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

タグ付けされた質問 「text」

タグ付けされた質問「text」