100万を超えるドキュメントのコーパスを持っている
特定のドキュメントについて、ベクトル空間モデルのように余弦を使用して類似のドキュメントを検索したい
このtf-idfのように、より長いドキュメントへのバイアスを防ぐために、すべてのtfは拡張周波数を使用して正規化されています。
すべて事前計算済み
分母の値が事前に計算されている
ので、特定のd 1に対して100万を超えるスコアが必要d 2
類似性の0.6コサインのしきい値がある
特定の状況でそれを観察できます|の範囲はかなり狭いです | d 2 | | 余弦のための≥ 0.6
の余弦のための同様のためのつの検索で例えば≥ 0.6と| | d 1 | | の7.7631 | | d 2 | | 7.0867から8.8339の範囲
コサイン0.6のしきい値の外側| | d 2 | | 0.7223〜89.3395の範囲
これは、標準のtfドキュメントの正規化による
ものでしたコサイン0.6の一致になる可能性がない
最後に質問:
ギブについてそして、の範囲を決定する方法> = 0.6の余弦| | d 2 | | チャンスがある?
どの| | d 2 | | 安全に削除できますか?
用語カウント範囲がある場合、とd 2の用語の数も知っています。
実験による
と| | d 2 | | < | | d 1 | | / .8
は安全に見えますが、うまくいけば、安全であることが証明されている範囲があります
非常にいくつかの固有の用語、それほど固有ではない用語、および一般的な用語を使用して、いくつかのテストケースを作成しました。案の定、最もユニークな用語を使用して、比較の頻度を増やすことができます。分子(ドット積)が上がり、||比較|| そして、1に非常に近い余弦を取得します。
関連する種類の質問ではありません。
また、tf-idfを使用してドキュメントをグループにグループ化しています。私が販売している顧客ベースは、dupグループの近くに慣れています。そこでは、関連するアプローチを採用して、最小の用語数と見なし、最大3倍の用語数に対して評価しています。したがって、10の用語カウントは10から30を調べます(4-9はすでに10でショットを持っています)。ここで私はそれを別のもので拾ったのを見逃す余裕があります。私は10%完了し、最大の比率は1.8です。
この分析の欠陥を識別してください
AN6U5によって尖ったアウトは、この分析に欠陥があるとして
文書が加重に正規化されている場合、それはもはや余弦である
とマシューが指し示すアウトとしてもd1⋅d2≤d1⋅d1結論づけることができない
私はまだ私のハードバウンドを与えるために何かを期待していますが、このようなものを知っているようだ人はいない私に言っている
私は、質問を変更したくないので、ちょうどこれを無視し
、私はいくつかの分析を行うと、おそらく文書の正規化に別の質問を投稿します
に関してこの質問の目的は、文書を想定して、生のTFに正規化されて
申し訳ありませんが、私が今までマークアップの方程式を作るために使用されるものとちょうど良いではないよ
だから私の表記で
|| || D1 = sqrt(sum(w1 x w1))
d1 dot d2 = sum(w1 X w2)
d1が短いドキュメントであると想定し
ます。達成可能な最高のd1 dot d2はd1 dot d1です
。d1が100ポール20であり
、d2が100ポール20である場合1
正規化された
d1は結婚です1ポール1/5
d2は結婚します1ポール1/5ピーター1/100
明らかに結婚し、ポールは両方のドキュメントで同じidfを持ってい
ます可能な限り最高のd1ドットd2はd1ドットd1 d1へ
の可能な最大一致はd1
cos = d1ドットですd1 / || d1 || || d2 ||
正方形両側
cos X cos =(d1ドットd1)X(d1ドットd1)/((d1ドットd1)X(d2ドットd2))cos X cos =(d1ドットd1)/(d2ドットd2)
正方形を取る両側
cosのルート= || d1 || / || d2 ||
|| d2 || cosに囲まれていませんか?
|| d2 ||だけを使用する場合 > = cos || d1 || そして|| d2 || <= || d1 || / cos必要な計算速度を得る