タグ付けされた質問 「word2vec」

word2vecは、テキストを処理するための2層ニューラルネットワークです。単語を入力として受け取り、それに応じてベクトルを出力します。単語の連続バッグとスキップグラムモデルの実装の組み合わせを使用します。

4
単語のセマンティックな類似性の尺度を取得するにはどうすればよいですか?
単語の意味的類似性を把握する最良の方法は何ですか?Word2Vecは大丈夫ですが、理想的ではありません。 # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 NLTKのWordnetメソッドはあきらめたようです: In [25]: …

5
文の類似性に最適な実用的なアルゴリズム
S1とS2の2つの文があり、どちらも15未満の単語数(通常)を持っています。 最も実用的で成功している(機械学習)アルゴリズムは、実装がおそらく簡単です(アーキテクチャがGoogle Inceptionなどのように複雑でない限り、ニューラルネットワークは大丈夫です)。 あまり時間をかけなくても問題なく動作するアルゴリズムを探しています。成功した使いやすいアルゴリズムがありますか? これは、クラスタリングのカテゴリに分類できますが、分類する必要はありません。私の背景は機械学習からですので、どんな提案でも大歓迎です:)

2
Doc2Vec-段落にラベルを付ける方法(gensim)
gensimでdoc2vecを使用して文/段落/文書にラベルを付ける(タグ付けする)方法を考えています-実際的な観点から。 各文/段落/文書に固有のラベル(「Sent_123」など)を付ける必要がありますか?これは、「 "Sent_123"というラベルの付いた特定の1つの文に最も似ている単語や文を言いたい場合に便利です。 内容に基づいてラベルを繰り返すことはできますか?たとえば、各文/段落/ドキュメントが特定の製品アイテムに関するものである場合(および特定の製品アイテムに複数の文/段落/ドキュメントがある場合)、アイテムに基づいて文にラベルを付けてから、単語または単語間の類似性を計算できます文とこのラベル(製品アイテムに関係するすべての文の平均に似ていると思います)?

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
Gensim Word2Vec実装のエポック数
Word2Vec実装にiterパラメーターがありますgensim クラスgensim.models.word2vec.Word2Vec(sentences = None、size = 100、alpha = 0.025、window = 5、min_count = 5、max_vocab_size = None、sample = 0、seed = 1、workers = 1、min_alpha = 0.0001、sg = 1、hs = 1、negative = 0、cbow_mean = 0、hashfxn =、iter = 1、null_word = 0、trim_rule = None、sorted_vocab = 1) エポックの数を指定します。つまり、 iter =コーパス全体の反復数(エポック)。 それがコーパス全体でモデルを改善するのに役立つかどうか誰か知っていますか? がiterデフォルトで1に設定されている理由はありますか?いいえを増やすことにはあまり効果はありません。エポックの? いいえを設定する方法についての科学的/経験的評価はありますか?エポックの? 分類/回帰タスクとは異なり、ベクトルは監視されていない方法で生成され、目的関数は単純に階層型ソフトマックスまたは負のサンプリングのいずれかであるため、グリッド検索方法は実際には機能しません。 いいえを短縮するための早期停止メカニズムはありますか?ベクトルが収束した時点のエポックの数 また、階層的なソフトマックスまたは負のサンプリング目標は収束できますか?

4
事前に訓練されたモデルの重みで新しいword2vecモデルを初期化する方法は?
word2vectorモデルの使用とトレーニングにPythonのGensimライブラリを使用しています。最近、(GoogleNewDataset事前学習済みモデル)などの事前学習済みのword2vecモデルでモデルの重みを初期化することを検討していました。私は数週間それと格闘してきました。さて、私はgesimに、事前に訓練されたモデルの重みでモデルの重みを初期化するのに役立つ関数があることを調べました。以下に説明します。 reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. この関数で同じことができるかどうかはわかりません。助けてください!!!

4
word2vecモデルのトレーニング中に転移学習を使用する利点を活用できますか?
Googleニュースデータなど、すでにトレーニング済みのモデルの事前トレーニング済みの重みを探しています。十分な量(10 GBなど)のデータを使用して新しいモデルをトレーニングするのは難しいと感じました。したがって、事前学習済みのレイヤーの重みを取得し、ドメイン固有の単語でそれらの重みを再学習できる転送学習の恩恵を受けたいと思います。したがって、トレーニングにかかる​​時間は比較的短くなります。どんな種類の助けも大歓迎です。前もって感謝します :)

2
畳み込みニューラルネットワークを使用したドキュメント分類
CNN(畳み込みニューラルネットワーク)を使用してドキュメントを分類しようとしています。短いテキスト/文のCNNは多くの論文で研究されています。ただし、長いテキストやドキュメントにCNNを使用した論文はないようです。 私の問題は、ドキュメントの機能が多すぎることです。私のデータセットでは、各ドキュメントに1000を超えるトークン/単語があります。各例をCNNに送るために、word2vecまたはgloveを使用して各ドキュメントをマトリックスに変換し、大きなマトリックスを作成します。各行列の高さはドキュメントの長さで、幅は単語埋め込みベクトルのサイズです。私のデータセットには9000を超える例があり、ネットワークのトレーニングに長い時間がかかり(1週間)、パラメーターの微調整が難しくなっています。 別の特徴抽出方法は、単語ごとにワンホットベクトルを使用することですが、これにより非常にスパース行列が作成されます。そしてもちろん、この方法では、以前の方法よりもトレーニングに時間がかかります。 それで、大きな入力行列を作成せずに特徴を抽出するためのより良い方法はありますか? また、可変長のドキュメントをどのように処理する必要がありますか?現在、ドキュメントを同じ長さにするために特別な文字列を追加していますが、これは良い解決策ではないと思います。

2
TF-IDFによるWord2Vec埋め込み
(たとえば、gensimを使用して)word2vecモデルをトレーニングするときは、単語/文のリストを指定します。しかし、たとえばTF-IDFを使用して計算された単語の重みを指定する方法はないようです。 ワードベクトルの埋め込みに関連するTF-IDFウェイトを乗算する通常の方法はありますか?あるいは、word2vecはこれらを何らかの形で有機的に利用できますか?

3
Word2VecとDoc2Vecはどちらも分布表現ですか、それとも分散表現ですか?
私は、分布表現が、類似した文脈で出現する単語は類似した意味を持つ傾向があるという分布仮説に基づいていることを読みました。 Word2VecとDoc2Vecはどちらも、この仮説に従ってモデル化されています。ただし、元の論文では、Distributed representation of words and phrasesととタイトルが付けられていDistributed representation of sentences and documentsます。したがって、これらのアルゴリズムは、分散表現または分散表現に基づいています。 LDAやLSAなどの他のモデルについてはどうでしょうか。

2
word2vecの特徴マトリックスは何ですか?
私はニューラルネットワークの初心者で、現在はword2vecモデルを探索しています。しかし、機能マトリックスが正確に何であるかを理解するのに苦労しています。 最初の行列が特定の単語のワンホットエンコーディングベクトルであることは理解できますが、2番目の行列は何を意味していますか?より具体的には、これらの各値(つまり、17、24、1など)はどういう意味ですか?

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
word2vecまたはGloVeに2つの行列が必要な理由
Word2vecとGloVeは、最もよく知られている2つの単語埋め込み方法です。多くの研究は、これらの2つのモデルは実際には互いに非常に接近しており、いくつかの仮定の下では、コーパス内の単語の共起のppmiの行列因数分解を実行することを指摘しました。 それでも、これらのモデルに2つの行列(1つではなく)が実際に必要な理由を理解できません。UとVに同じものを使用できませんか?勾配降下の問題ですか、それとも別の理由がありますか? 誰かが私に言ったのは、1つの単語の埋め込みuとvは、単語がそれ自体のコンテキストでめったに出現しないという事実を表現するのに十分なはずであるためです。しかし、それは私にはわかりません。

5
Word Embeddings(word2vec)で作業するときにトレーニング例のさまざまな長さを克服する方法
私は、word2vecを単語表現として使用して、ツイートに対する感情分析に取り組んでいます。 word2vecモデルをトレーニングしました。しかし、分類子をトレーニングするときに、すべてのツイートの長さが異なり、分類子(RandomForest)はすべての例を同じサイズにする必要があるという問題に直面しています。 現在、すべてのつぶやきについて、そのつぶやきのベクトル表現で終わるように、すべての単語のベクトルを平均化しています。 例:私のword2vecモデルは、各単語をサイズ300のベクトルとして表します。 私はTweet110ワード、Tweet25ワードで構成されています。 だから私がすることは、 Tweet1 (v1_Tweet1 + v2_Tweet1 + ... +v10_Tweet1)/10 = v_Tweet1 #avg vector of 300 elements. の場合Tweet2: (v1_Tweet2 + v2_Tweet2 + ... +v5_Tweet1)/5 = v_Tweet2 #avg vector of 300 elements. * v1_TweetXであるため、TweetXの最初の単語のベクトルなど。 これは正常に機能しますが、列車のさまざまなサイズと分類子のテキストの例を克服するために他にどのようなアプローチをとっていますか。 ありがとう。

2
word2vecの単語ベクトルの特徴
私は感情分析をしようとしています。単語を単語ベクトルに変換するために、word2vecモデルを使用しています。すべての文が「sentences」という名前のリストにあり、次のようにこれらの文をword2vecに渡しているとします。 model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) 私は単語ベクトルに慣れていないので、2つの疑問があります。 1-特徴の数を300に設定すると、単語ベクトルの特徴が定義されます。しかし、これらの機能は何を意味していますか?このモデルの各単語が1x300のnumpy配列で表されている場合、これらの300の特徴はその単語に対して何を意味するのでしょうか。 2-上記のモデルの「sample」パラメーターで表されるダウンサンプリングは実際には何をしますか? 前もって感謝します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.