データサイエンス word2vec

4

単語の意味的類似性を把握する最良の方法は何ですか？Word2Vecは大丈夫ですが、理想的ではありません。 # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 NLTKのWordnetメソッドはあきらめたようです： In [25]: …

20 nlp word-embeddings word2vec nltk

5

文の類似性に最適な実用的なアルゴリズム

S1とS2の2つの文があり、どちらも15未満の単語数（通常）を持っています。最も実用的で成功している（機械学習）アルゴリズムは、実装がおそらく簡単です（アーキテクチャがGoogle Inceptionなどのように複雑でない限り、ニューラルネットワークは大丈夫です）。あまり時間をかけなくても問題なく動作するアルゴリズムを探しています。成功した使いやすいアルゴリズムがありますか？これは、クラスタリングのカテゴリに分類できますが、分類する必要はありません。私の背景は機械学習からですので、どんな提案でも大歓迎です:)

17 nlp clustering word2vec similarity

2

Doc2Vec-段落にラベルを付ける方法（gensim）

gensimでdoc2vecを使用して文/段落/文書にラベルを付ける（タグ付けする）方法を考えています-実際的な観点から。各文/段落/文書に固有のラベル（「Sent_123」など）を付ける必要がありますか？これは、「 "Sent_123"というラベルの付いた特定の1つの文に最も似ている単語や文を言いたい場合に便利です。内容に基づいてラベルを繰り返すことはできますか？たとえば、各文/段落/ドキュメントが特定の製品アイテムに関するものである場合（および特定の製品アイテムに複数の文/段落/ドキュメントがある場合）、アイテムに基づいて文にラベルを付けてから、単語または単語間の類似性を計算できます文とこのラベル（製品アイテムに関係するすべての文の平均に似ていると思います）？

17 machine-learning text-mining word-embeddings word2vec

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

Gensim Word2Vec実装のエポック数

Word2Vec実装にiterパラメーターがありますgensim クラスgensim.models.word2vec.Word2Vec（sentences = None、size = 100、alpha = 0.025、window = 5、min_count = 5、max_vocab_size = None、sample = 0、seed = 1、workers = 1、min_alpha = 0.0001、sg = 1、hs = 1、negative = 0、cbow_mean = 0、hashfxn =、iter = 1、null_word = 0、trim_rule = None、sorted_vocab = 1）エポックの数を指定します。つまり、 iter =コーパス全体の反復数（エポック）。それがコーパス全体でモデルを改善するのに役立つかどうか誰か知っていますか？がiterデフォルトで1に設定されている理由はありますか？いいえを増やすことにはあまり効果はありません。エポックの？いいえを設定する方法についての科学的/経験的評価はありますか？エポックの？分類/回帰タスクとは異なり、ベクトルは監視されていない方法で生成され、目的関数は単純に階層型ソフトマックスまたは負のサンプリングのいずれかであるため、グリッド検索方法は実際には機能しません。いいえを短縮するための早期停止メカニズムはありますか？ベクトルが収束した時点のエポックの数また、階層的なソフトマックスまたは負のサンプリング目標は収束できますか？

14 gensim word2vec convergence

4

事前に訓練されたモデルの重みで新しいword2vecモデルを初期化する方法は？

word2vectorモデルの使用とトレーニングにPythonのGensimライブラリを使用しています。最近、（GoogleNewDataset事前学習済みモデル）などの事前学習済みのword2vecモデルでモデルの重みを初期化することを検討していました。私は数週間それと格闘してきました。さて、私はgesimに、事前に訓練されたモデルの重みでモデルの重みを初期化するのに役立つ関数があることを調べました。以下に説明します。 reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. この関数で同じことができるかどうかはわかりません。助けてください！！！

13 python nlp word-embeddings word2vec gensim

4

word2vecモデルのトレーニング中に転移学習を使用する利点を活用できますか？

Googleニュースデータなど、すでにトレーニング済みのモデルの事前トレーニング済みの重みを探しています。十分な量（10 GBなど）のデータを使用して新しいモデルをトレーニングするのは難しいと感じました。したがって、事前学習済みのレイヤーの重みを取得し、ドメイン固有の単語でそれらの重みを再学習できる転送学習の恩恵を受けたいと思います。したがって、トレーニングにかかる時間は比較的短くなります。どんな種類の助けも大歓迎です。前もって感謝します：）

13 machine-learning bigdata word2vec

2

畳み込みニューラルネットワークを使用したドキュメント分類

CNN（畳み込みニューラルネットワーク）を使用してドキュメントを分類しようとしています。短いテキスト/文のCNNは多くの論文で研究されています。ただし、長いテキストやドキュメントにCNNを使用した論文はないようです。私の問題は、ドキュメントの機能が多すぎることです。私のデータセットでは、各ドキュメントに1000を超えるトークン/単語があります。各例をCNNに送るために、word2vecまたはgloveを使用して各ドキュメントをマトリックスに変換し、大きなマトリックスを作成します。各行列の高さはドキュメントの長さで、幅は単語埋め込みベクトルのサイズです。私のデータセットには9000を超える例があり、ネットワークのトレーニングに長い時間がかかり（1週間）、パラメーターの微調整が難しくなっています。別の特徴抽出方法は、単語ごとにワンホットベクトルを使用することですが、これにより非常にスパース行列が作成されます。そしてもちろん、この方法では、以前の方法よりもトレーニングに時間がかかります。それで、大きな入力行列を作成せずに特徴を抽出するためのより良い方法はありますか？また、可変長のドキュメントをどのように処理する必要がありますか？現在、ドキュメントを同じ長さにするために特別な文字列を追加していますが、これは良い解決策ではないと思います。

11 classification neural-network text-mining convnet word2vec

2

TF-IDFによるWord2Vec埋め込み

（たとえば、gensimを使用して）word2vecモデルをトレーニングするときは、単語/文のリストを指定します。しかし、たとえばTF-IDFを使用して計算された単語の重みを指定する方法はないようです。ワードベクトルの埋め込みに関連するTF-IDFウェイトを乗算する通常の方法はありますか？あるいは、word2vecはこれらを何らかの形で有機的に利用できますか？

11 machine-learning nlp word2vec language-model tfidf

3

Word2VecとDoc2Vecはどちらも分布表現ですか、それとも分散表現ですか？

私は、分布表現が、類似した文脈で出現する単語は類似した意味を持つ傾向があるという分布仮説に基づいていることを読みました。 Word2VecとDoc2Vecはどちらも、この仮説に従ってモデル化されています。ただし、元の論文では、Distributed representation of words and phrasesととタイトルが付けられていDistributed representation of sentences and documentsます。したがって、これらのアルゴリズムは、分散表現または分散表現に基づいています。 LDAやLSAなどの他のモデルについてはどうでしょうか。

10 nlp word-embeddings terminology word2vec

2

word2vecの特徴マトリックスは何ですか？

私はニューラルネットワークの初心者で、現在はword2vecモデルを探索しています。しかし、機能マトリックスが正確に何であるかを理解するのに苦労しています。最初の行列が特定の単語のワンホットエンコーディングベクトルであることは理解できますが、2番目の行列は何を意味していますか？より具体的には、これらの各値（つまり、17、24、1など）はどういう意味ですか？

10 machine-learning neural-network word2vec

3

数学の畳み込みとCNNの関係

畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか？gウェイトをかけるフィルターのような機能ですか？

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

2

word2vecまたはGloVeに2つの行列が必要な理由

Word2vecとGloVeは、最もよく知られている2つの単語埋め込み方法です。多くの研究は、これらの2つのモデルは実際には互いに非常に接近しており、いくつかの仮定の下では、コーパス内の単語の共起のppmiの行列因数分解を実行することを指摘しました。それでも、これらのモデルに2つの行列（1つではなく）が実際に必要な理由を理解できません。UとVに同じものを使用できませんか？勾配降下の問題ですか、それとも別の理由がありますか？誰かが私に言ったのは、1つの単語の埋め込みuとvは、単語がそれ自体のコンテキストでめったに出現しないという事実を表現するのに十分なはずであるためです。しかし、それは私にはわかりません。

10 word2vec word-embeddings matrix-factorisation

5

Word Embeddings（word2vec）で作業するときにトレーニング例のさまざまな長さを克服する方法

私は、word2vecを単語表現として使用して、ツイートに対する感情分析に取り組んでいます。 word2vecモデルをトレーニングしました。しかし、分類子をトレーニングするときに、すべてのツイートの長さが異なり、分類子（RandomForest）はすべての例を同じサイズにする必要があるという問題に直面しています。現在、すべてのつぶやきについて、そのつぶやきのベクトル表現で終わるように、すべての単語のベクトルを平均化しています。例：私のword2vecモデルは、各単語をサイズ300のベクトルとして表します。私はTweet110ワード、Tweet25ワードで構成されています。だから私がすることは、 Tweet1 (v1_Tweet1 + v2_Tweet1 + ... +v10_Tweet1)/10 = v_Tweet1 #avg vector of 300 elements. の場合Tweet2： (v1_Tweet2 + v2_Tweet2 + ... +v5_Tweet1)/5 = v_Tweet2 #avg vector of 300 elements. * v1_TweetXであるため、TweetXの最初の単語のベクトルなど。これは正常に機能しますが、列車のさまざまなサイズと分類子のテキストの例を克服するために他にどのようなアプローチをとっていますか。ありがとう。

10 word-embeddings word2vec sentiment-analysis

2

word2vecの単語ベクトルの特徴

私は感情分析をしようとしています。単語を単語ベクトルに変換するために、word2vecモデルを使用しています。すべての文が「sentences」という名前のリストにあり、次のようにこれらの文をword2vecに渡しているとします。 model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) 私は単語ベクトルに慣れていないので、2つの疑問があります。 1-特徴の数を300に設定すると、単語ベクトルの特徴が定義されます。しかし、これらの機能は何を意味していますか？このモデルの各単語が1x300のnumpy配列で表されている場合、これらの300の特徴はその単語に対して何を意味するのでしょうか。 2-上記のモデルの「sample」パラメーターで表されるダウンサンプリングは実際には何をしますか？前もって感謝します。

9 machine-learning deep-learning word-embeddings word2vec sentiment-analysis

タグ付けされた質問 「word2vec」

タグ付けされた質問「word2vec」