タグ付けされた質問 「word-embeddings」

単語の埋め込みとは、NLPにおける一連の言語モデリングおよび特徴学習手法の総称であり、単語は、語彙サイズと比較して、低次元空間の実数のベクトルにマッピングされます。

4
ノイズ対照推定(NCE)損失の直感的な説明?
これら2つのソースからNCE(候補サンプリングの形式)について読みました。 テンソルフローの評価 オリジナルペーパー 誰かが次のことで私を助けることができます: NCEの仕組みの簡単な説明(上記を解析して理解するのは難しいことがわかったので、そこに提示された数学につながる直感的なものは素晴らしいでしょう) 上記のポイント1の後、これがネガティブサンプリングとどのように異なるかについての自然に直感的な説明。数式にわずかな変更があることがわかりますが、数学を理解できませんでした。ネガティブサンプリングのコンテキストでの直感的な理解はありword2vecます。ボキャブラリーからランダムにいくつかのサンプルを選択し、Vそれらのみを更新するため|V|、サイズが大きくなり、高速化が実現します。間違っている場合は修正してください。 どちらをいつ使用するか、どのように決定されますか?例を含めることができれば素晴らしいと思います(アプリケーションを理解しやすいかもしれません) NCEはネガティブサンプリングより優れていますか?どのような方法で良いですか? ありがとうございました。

3
Word2Vecのより良い入力は何ですか?
これは、一般的なNLPの質問に似ています。Word2Vecを埋め込む単語をトレーニングするための適切な入力は何ですか?記事に属するすべての文は、コーパス内の別個の文書である必要がありますか?または、各記事はコーパス内のドキュメントである必要がありますか?これは、Pythonとgensimを使用した単なる例です。 文で分割されたコーパス: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] コーパスを記事ごとに分割: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article.", "second", …

2
Word2vecモデルを使用して単語を予測する
「??ドアを開くと、自動的に加熱が開始されます」という文が与えられます。 ??で可能な単語のリストを取得したい 確率で。 word2vecモデルで使用される基本的な概念は、周囲のコンテキストが与えられた単語を「予測」することです。 モデルが構築されたら、新しい文に対して予測タスクを実行するための正しいコンテキストベクトル操作は何ですか? それは単なる線形和ですか? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

4
単語のセマンティックな類似性の尺度を取得するにはどうすればよいですか?
単語の意味的類似性を把握する最良の方法は何ですか?Word2Vecは大丈夫ですが、理想的ではありません。 # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 NLTKのWordnetメソッドはあきらめたようです: In [25]: …

2
Doc2Vec-段落にラベルを付ける方法(gensim)
gensimでdoc2vecを使用して文/段落/文書にラベルを付ける(タグ付けする)方法を考えています-実際的な観点から。 各文/段落/文書に固有のラベル(「Sent_123」など)を付ける必要がありますか?これは、「 "Sent_123"というラベルの付いた特定の1つの文に最も似ている単語や文を言いたい場合に便利です。 内容に基づいてラベルを繰り返すことはできますか?たとえば、各文/段落/ドキュメントが特定の製品アイテムに関するものである場合(および特定の製品アイテムに複数の文/段落/ドキュメントがある場合)、アイテムに基づいて文にラベルを付けてから、単語または単語間の類似性を計算できます文とこのラベル(製品アイテムに関係するすべての文の平均に似ていると思います)?

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
事前に訓練されたモデルの重みで新しいword2vecモデルを初期化する方法は?
word2vectorモデルの使用とトレーニングにPythonのGensimライブラリを使用しています。最近、(GoogleNewDataset事前学習済みモデル)などの事前学習済みのword2vecモデルでモデルの重みを初期化することを検討していました。私は数週間それと格闘してきました。さて、私はgesimに、事前に訓練されたモデルの重みでモデルの重みを初期化するのに役立つ関数があることを調べました。以下に説明します。 reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. この関数で同じことができるかどうかはわかりません。助けてください!!!

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
word2vecを使用して目に見えない単語を識別し、それらをすでにトレーニングされたデータに関連付ける方法
私はword2vec gensimモデルに取り組んでいて、それが本当に面白いと思いました。私は、モデルでチェックしたときに未知の/目に見えない単語が、トレーニングされたモデルから同様の用語を取得できる方法を見つけることに興味があります。 これは可能ですか?これのためにword2vecを微調整できますか?または、トレーニングコーパスには、類似性を見つけたいすべての単語が必要です。

3
Word2VecとDoc2Vecはどちらも分布表現ですか、それとも分散表現ですか?
私は、分布表現が、類似した文脈で出現する単語は類似した意味を持つ傾向があるという分布仮説に基づいていることを読みました。 Word2VecとDoc2Vecはどちらも、この仮説に従ってモデル化されています。ただし、元の論文では、Distributed representation of words and phrasesととタイトルが付けられていDistributed representation of sentences and documentsます。したがって、これらのアルゴリズムは、分散表現または分散表現に基づいています。 LDAやLSAなどの他のモデルについてはどうでしょうか。

1
テキスト分類問題:Word2Vec / NNは最善のアプローチですか?
私は、テキストの段落が与えられれば、それを分類してコンテキストを特定できるシステムを設計しようと考えています。 ユーザーが作成したテキスト段落(コメント/質問/回答など)でトレーニングされている トレーニングセットの各アイテムには、のタグが付けられます。したがって、たとえば( "category 1"、、 "text段落") 何百ものカテゴリがあります そのようなシステムを構築するための最良のアプローチは何でしょうか?私はいくつかの異なるオプションを見てきましたが、以下は可能な解決策のリストです。Word2Vec / NNは現時点で最良のソリューションですか? 平均化されたWord2Vecデータが供給された再帰型ニューラルテンソルネットワーク RNTNとパラグラフベクトル(https://cs.stanford.edu/~quocle/paragraph_vector.pdf)? Deep Belief Networkで使用されるTF-IDF TF-IDFとロジスティック回帰 Bag of WordsとNaive Bayes分類

1
word2vecにはどのくらいのトレーニングデータが必要ですか?
出典が異なる同じ言葉の違いを比較したい。つまり、「民主主義」などの不明確な言葉の使い方が著者によってどのように異なるかです。 簡単な計画は 「民主主義」という用語を述べた本を平文とする それぞれの本には、交換するdemocracyとdemocracy_%AuthorName% word2vecこれらの本でモデルを訓練する 間の距離を計算しdemocracy_AuthorA、democracy_AuthorB及びその他の再ラベルは、「民主主義」の言及 したがって、各作者の「民主主義」は、比較のために使用される独自のベクトルを取得します。 しかし、word2vec信頼できるベクトルを訓練するには、数冊の本よりはるかに多くのラベルが必要です(各ラベルが付けられた単語は、本のサブセットでのみ発生します)。公式ページには、言葉の十億を含むデータセットを推奨しています。 私は、そのような推論を行うために、word2vecまたは利用可能な場合は代替ツールを作成するために、1人の著者の本のサブセットがどのくらいの大きさであるかを尋ねたかっただけですか?

2
word2vecまたはGloVeに2つの行列が必要な理由
Word2vecとGloVeは、最もよく知られている2つの単語埋め込み方法です。多くの研究は、これらの2つのモデルは実際には互いに非常に接近しており、いくつかの仮定の下では、コーパス内の単語の共起のppmiの行列因数分解を実行することを指摘しました。 それでも、これらのモデルに2つの行列(1つではなく)が実際に必要な理由を理解できません。UとVに同じものを使用できませんか?勾配降下の問題ですか、それとも別の理由がありますか? 誰かが私に言ったのは、1つの単語の埋め込みuとvは、単語がそれ自体のコンテキストでめったに出現しないという事実を表現するのに十分なはずであるためです。しかし、それは私にはわかりません。

5
Word Embeddings(word2vec)で作業するときにトレーニング例のさまざまな長さを克服する方法
私は、word2vecを単語表現として使用して、ツイートに対する感情分析に取り組んでいます。 word2vecモデルをトレーニングしました。しかし、分類子をトレーニングするときに、すべてのツイートの長さが異なり、分類子(RandomForest)はすべての例を同じサイズにする必要があるという問題に直面しています。 現在、すべてのつぶやきについて、そのつぶやきのベクトル表現で終わるように、すべての単語のベクトルを平均化しています。 例:私のword2vecモデルは、各単語をサイズ300のベクトルとして表します。 私はTweet110ワード、Tweet25ワードで構成されています。 だから私がすることは、 Tweet1 (v1_Tweet1 + v2_Tweet1 + ... +v10_Tweet1)/10 = v_Tweet1 #avg vector of 300 elements. の場合Tweet2: (v1_Tweet2 + v2_Tweet2 + ... +v5_Tweet1)/5 = v_Tweet2 #avg vector of 300 elements. * v1_TweetXであるため、TweetXの最初の単語のベクトルなど。 これは正常に機能しますが、列車のさまざまなサイズと分類子のテキストの例を克服するために他にどのようなアプローチをとっていますか。 ありがとう。

2
word2vecの単語ベクトルの特徴
私は感情分析をしようとしています。単語を単語ベクトルに変換するために、word2vecモデルを使用しています。すべての文が「sentences」という名前のリストにあり、次のようにこれらの文をword2vecに渡しているとします。 model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) 私は単語ベクトルに慣れていないので、2つの疑問があります。 1-特徴の数を300に設定すると、単語ベクトルの特徴が定義されます。しかし、これらの機能は何を意味していますか?このモデルの各単語が1x300のnumpy配列で表されている場合、これらの300の特徴はその単語に対して何を意味するのでしょうか。 2-上記のモデルの「sample」パラメーターで表されるダウンサンプリングは実際には何をしますか? 前もって感謝します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.