データサイエンス word2vec

タグ付けされた質問「word2vec」

word2vecは、テキストを処理するための2層ニューラルネットワークです。単語を入力として受け取り、それに応じてベクトルを出力します。単語の連続バッグとスキップグラムモデルの実装の組み合わせを使用します。

Word2vecアルゴリズムのトレーニング済みデータに取り組んでいます。元の状態を保つには単語が必要なので、前処理段階では単語を小文字にしません。したがって、異なるバリエーションの単語があります（たとえば、「地球」と「地球」）。私が考えることのできる唯一の方法は、「地球」と「地球」のベクトルを平均して、単語を表す単一のベクトルを作成することです。（特徴ベクトルの次元は類似しているため）これは「大丈夫」な方法ですか？そうでない場合、この問題を処理するための良い方法は何でしょうか？注：前処理ですべての単語を下げることは、現時点ではオプションではありません。編集：フィーチャの寸法が本当に直線的であるかどうかに関する情報も役立ちます。編集2：両方からの回答を組み合わせるpatapouf_aiとyazhi最良の結果が得られました。これらはどのように組み合わされますか？加重平均は結果を改善しましたが、スケーリングされたシグモイド関数に単語の頻度を置くと、単語の頻度を線形的に使用することで、単語の頻度よりも重要度が高くなるため、最良の結果が得られました。

8 feature-extraction word-embeddings word2vec

指定された変数に直交する（相関しない）予測を生成する

私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。このコード： import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

タグ付けされた質問 「word2vec」

タグ付けされた質問「word2vec」