タグ付けされた質問 「tf-idf」

2
SpaCyの.similarityメソッドはどのように計算されますか?
これが正しいスタックサイトかどうかはわかりませんが、ここに行きます。 .similiarityメソッドはどのように機能しますか? うわー、spaCyは素晴らしい!tfidfモデルの方が簡単かもしれませんが、w2vのコードは1行だけですか?! spaCy andrazhribernikショーに関する彼の 10行のチュートリアルでは、トークン、送信、ワードチャンク、およびドキュメントで実行できる.similarityメソッドを示しています。 その後nlp = spacy.load('en')、doc = nlp(raw_text) トークンとチャンク間で.similarityクエリを実行できます。しかし、この.similarity方法では、背後で何が計算されていますか? SpaCyにはすでに.vector、GloVeモデルからトレーニングされたw2vベクトルを計算する非常に単純ながあります(a .tfidfまたは.fasttextmethod はどれくらいクールでしょうか?)。 モデルは、これら2つのw2v、.vector、vectors間のコサイン類似度を単純に計算するのですか、それとも他のマトリックスを比較するのですか?詳細はドキュメントでは明確ではありません。助けていただければ幸いです!

1
Lucene IDFに一見追加+1があるのはなぜですか?
Luceneのドキュメントから IDF=1+log(numDocsdocFreq+1)IDF=1+log⁡(numDocsdocFreq+1)\text{IDF} = 1 + \log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) 他の参照(つまり、ウィキペディア)では、IDFは通常または、0によるダイビングを回避します。log(numDocsdocFreq)log⁡(numDocsdocFreq)\log\left(\frac{\text{numDocs}}{\text{docFreq}}\right)log(numDocsdocFreq+1)log⁡(numDocsdocFreq+1)\log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) LuceneがTFの計算にではなく使用していることも知っていますが、これはおそらくを避けるための好ましい変換であると私は理解してい。x−−√x\sqrt{x}log(x)log⁡(x)\log(x)log(0)log⁡(0)\log(0) 誰かがIDF用語でその追加の+1を説明できますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.