タグ付けされた質問 「natural-language」

自然言語処理は、言語学、人工知能、機械学習、人間の言語の処理と理解を目的とした統計の一連の手法です。

1
単語のバッグの類似性を定量化する
最も一般的な単語と2つの異なる記事の頻度を含む2つのデータセットがあります。 例えば: A = [apple: 23, healthy: 15, tasty: 4] B = [apple: 19, healthy: 21, bad: 7] 両方のデータセットに類似した単語が含まれています。2つの記事が同じことについて話しているかどうかを知るための指標を見つけたいと思います。この場合、彼らはリンゴとその健康上の利点について話し合っているかもしれません。 のような単純な測定値を取得できますsimilarity = words in A and B / total number of wordsが、頻度を重みとして使用するより正式な測定値がありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.