類似ドキュメントを見つけるためのベクトル空間モデルコサインtf-idf
100万を超えるドキュメントのコーパスを持っている 特定のドキュメントについて、ベクトル空間モデルのように余弦を使用して類似のドキュメントを検索したい d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) このtf-idfのように、より長いドキュメントへのバイアスを防ぐために、すべてのtfは拡張周波数を使用して正規化されています。 tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} すべて事前計算済み 分母の値が事前に計算されている ので、特定のd 1に対して100万を超えるスコアが必要d 2 類似性の0.6コサインのしきい値がある ||d||||d||||d||d1d1d1d2d2d2 特定の状況でそれを観察できます|の範囲はかなり狭いです | d 2 | | 余弦のための≥ 0.6 の余弦のための同様のためのつの検索で例えば≥ 0.6と| | d 1 | | の7.7631 | | d 2 | | 7.0867から8.8339の範囲 コサイン0.6のしきい値の外側| | d 2 | | …