1
単語のバッグの類似性を定量化する
最も一般的な単語と2つの異なる記事の頻度を含む2つのデータセットがあります。 例えば: A = [apple: 23, healthy: 15, tasty: 4] B = [apple: 19, healthy: 21, bad: 7] 両方のデータセットに類似した単語が含まれています。2つの記事が同じことについて話しているかどうかを知るための指標を見つけたいと思います。この場合、彼らはリンゴとその健康上の利点について話し合っているかもしれません。 のような単純な測定値を取得できますsimilarity = words in A and B / total number of wordsが、頻度を重みとして使用するより正式な測定値がありますか?