TF-IDF対数での対数の使用について


10

読んでいた:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

しかし、なぜこの式がそのように構築されたのか、正確には理解できないようです。

私が理解していること:

iDFは、各文書に用語Sが出現する頻度をある程度のレベルで測定する必要があり、用語が出現する頻度が高くなるにつれて値が減少します。

その観点から

iDF(S)=# of Documents# of Documents containing S

さらに、用語の頻度は、次のように正しく記述できます。

tf(S,D)=# of Occurrences of S in document D# maximum number of occurrences for any string Q in document D

それで対策は

iDF(S)×tf(S,D)

ある用語が特定のドキュメントに出現する頻度、およびその用語が一連のドキュメント全体でどの程度一意であるかに比例します。

わからないこと

しかし、与えられた式はそれを次のように説明しています

(log(iDF(S)))(12+log(12tf(S,D)))

定義に記載されている対数の必要性を理解したいと思います。なぜそこにあるのですか?彼らはどの側面を強調していますか?

回答:


9

強調されている側面は、用語またはドキュメントの関連性が用語(またはドキュメント)の頻度に比例して増加しないことです。したがって、サブリニア関数を使用すると、この影響を軽減できます。そのため、非常に大きい値または非常に小さい値(たとえば、非常にまれな単語)の影響も償却されます。最後に、ほとんどの人はスコアリング関数を対数を使用していくらか加算的であると直感的に認識しているため、から独立した項が異なる可能性があります。P(A,B)=P(A)P(B)log(P(A,B))=log(P(A))+log(P(B))

リンクしているウィキペディアの記事にあるように、TF-IDFの正当化はまだ十分に確立されていません。現実世界に伝えたい厳密な概念ではなく、厳密にしたいのはヒューリスティックでした。@ Anony-Mousseがこの件に関する非常に優れた読み物として言及しているのは、RobertsonのInverse Document Frequency:IDFの理論的議論について理解です。フレームワーク全体の概要を示し、TF-IDF手法を検索用語の関連性の重み付けに基づいて説明します。


4
TF-IDFの正当化については、「情報検索ヒューリスティックスの正式な研究」、2004年、Fang、Huiら(pdf)を参照してください。
Alexey Grigorev、2015

3
私はこれがTF-IDFの正当化のためのより良いリファレンスだと思います:Robertson、S.(2004)。「逆ドキュメント頻度の理解:IDFの理論的議論について」。Journal of Documentation 60(5):503–520。
QUITあり-Anony-Mousse 2015年

紳士のコメントをありがとう(そして、アレクセイの訂正に感謝し\logます。いつも忘れてしまいます); 両方に+1。私はロバートソンの論文を見て、それを追加することを考えました。本当に良い読み物です。本文に追加します。
usεr11852

@ Anony-Mousse (pdf)
Walrus the Cat

の代わりに「ドキュメントDの文字列Qの最大出現数」が使用される理由を知りたいですnumber of occurrences for all strings in document D。すべての単語の数ではなく、最も一般的な単語の数が必要なのはなぜですか?
-Xeoncross、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.