読んでいた:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
しかし、なぜこの式がそのように構築されたのか、正確には理解できないようです。
私が理解していること:
iDFは、各文書に用語Sが出現する頻度をある程度のレベルで測定する必要があり、用語が出現する頻度が高くなるにつれて値が減少します。
その観点から
iDF(S)=# of Documents# of Documents containing S
さらに、用語の頻度は、次のように正しく記述できます。
tf(S,D)=# of Occurrences of S in document D# maximum number of occurrences for any string Q in document D
それで対策は
iDF(S)×tf(S,D)
ある用語が特定のドキュメントに出現する頻度、およびその用語が一連のドキュメント全体でどの程度一意であるかに比例します。
わからないこと
しかし、与えられた式はそれを次のように説明しています
(log(iDF(S)))(12+log(12tf(S,D)))
定義に記載されている対数の必要性を理解したいと思います。なぜそこにあるのですか?彼らはどの側面を強調していますか?