データサイエンス word-embeddings

3

埋め込み層は、Keras埋め込み層でどのようにトレーニングされますか？（たとえば、tensorflowバックエンドを使用すると、word2vec、glove、fasttextに似ています）事前トレーニング済みの埋め込みを使用しないと仮定します。

8 keras word-embeddings

2

2つのWord2vecベクトルを平均して単一の単語の統一表現を取得する

Word2vecアルゴリズムのトレーニング済みデータに取り組んでいます。元の状態を保つには単語が必要なので、前処理段階では単語を小文字にしません。したがって、異なるバリエーションの単語があります（たとえば、「地球」と「地球」）。私が考えることのできる唯一の方法は、「地球」と「地球」のベクトルを平均して、単語を表す単一のベクトルを作成することです。（特徴ベクトルの次元は類似しているため）これは「大丈夫」な方法ですか？そうでない場合、この問題を処理するための良い方法は何でしょうか？注：前処理ですべての単語を下げることは、現時点ではオプションではありません。編集：フィーチャの寸法が本当に直線的であるかどうかに関する情報も役立ちます。編集2：両方からの回答を組み合わせるpatapouf_aiとyazhi最良の結果が得られました。これらはどのように組み合わされますか？加重平均は結果を改善しましたが、スケーリングされたシグモイド関数に単語の頻度を置くと、単語の頻度を線形的に使用することで、単語の頻度よりも重要度が高くなるため、最良の結果が得られました。

8 feature-extraction word-embeddings word2vec

1

指定された変数に直交する（相関しない）予測を生成する

私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。このコード： import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

1

Kerasの埋め込みレイヤーを適切に使用するには？

seq2seqの目的でKerasの埋め込み層の適切な使用法を少し混乱しています（KerasでTensorFlow se2seq機械翻訳チュートリアルを再構築したいと思います）。私の質問は次のとおりです。埋め込みレイヤーが文の単語値を固定次元長表現に変換することを理解しています。しかし、埋め込みレイヤーの2つの異なる使用法を観察します。1つは（Keras ブログのこのチュートリアルのように）、weightsパラメーターを介して外部の事前トレーニング済みのword2vecベクトルを利用します。 from keras.layers import Embedding embedding_layer = Embedding(len(word_index) + 1, EMBEDDING_DIM, weights=[embedding_matrix], input_length=MAX_SEQUENCE_LENGTH, trainable=False)` 他のケースでは、そのような外部出力はありませんが、ユーザーは、埋め込みベクトルに進んで表現ベクトルを決定します。望ましい結果に関するこれらのアプローチの実際の違いは何ですか？たぶん内部のみのソリューションは意味論的表現ではありませんか？行がすでに固定長である外部マトリックスに埋め込み層を適用するポイントは何ですか？さらに、trainable埋め込みレイヤーのパラメーターの目的/効果は何ですか？これをTrueに設定すると、Embeddingレイヤーがインポートされたword2vecの重みを実際のトレーニング例を考慮に入れるように微調整できると思いますか？さらに、「メタ文字」を適切にエンコードするように埋め込みレイヤーに指示するにはどうすればよいですか？mask_zeroパラメータをTrueに設定すると、パディングゼロを組み込むことができますが、UNK（不明）、EOS（文の終わり）はどうなりますか？（ちなみに、文ベースの入力で文の終わりに明示的に署名するポイントが何であるか理解できません...）そして最後に、トレーニングセットで表されていない単語の翻訳をモデルがどのように予測できるでしょうか。語彙で「最も近い」ものと近似しようとしていますか？

7 deep-learning tensorflow keras word-embeddings

タグ付けされた質問 「word-embeddings」

タグ付けされた質問「word-embeddings」