これが正しいスタックサイトかどうかはわかりませんが、ここに行きます。
.similiarityメソッドはどのように機能しますか?
うわー、spaCyは素晴らしい!tfidfモデルの方が簡単かもしれませんが、w2vのコードは1行だけですか?!
spaCy andrazhribernikショーに関する彼の 10行のチュートリアルでは、トークン、送信、ワードチャンク、およびドキュメントで実行できる.similarityメソッドを示しています。
その後nlp = spacy.load('en')
、doc = nlp(raw_text)
トークンとチャンク間で.similarityクエリを実行できます。しかし、この.similarity
方法では、背後で何が計算されていますか?
SpaCyにはすでに.vector
、GloVeモデルからトレーニングされたw2vベクトルを計算する非常に単純ながあります(a .tfidf
または.fasttext
method はどれくらいクールでしょうか?)。
モデルは、これら2つのw2v、.vector、vectors間のコサイン類似度を単純に計算するのですか、それとも他のマトリックスを比較するのですか?詳細はドキュメントでは明確ではありません。助けていただければ幸いです!