2
コサイン類似度はl2正規化ユークリッド距離と同一ですか?
同一の意味。ベクトルuとベクトルVのセット間の類似度ランキングで同一の結果を生成します。 パラメータとして距離測度(ユークリッド距離、コサイン類似度)および正規化手法(なし、l1、l2)を持つベクトル空間モデルがあります。私の理解では、設定[cosine、none]の結果は[euclidean、l2]と同じか、少なくとも実際には似ているはずですが、そうではありません。 実際には、システムにまだバグがある可能性が十分にあります。または、ベクターに関して重大な問題がありますか? 編集:ベクトルはコーパス内のドキュメントの単語数に基づいていることを忘れていました。クエリドキュメント(ワードカウントベクトルで変換する)が与えられた場合、コーパスから最も類似したドキュメントを見つけたいと思います。 それらのユークリッド距離を計算することは簡単な測定ですが、私が取り組んでいる種類のタスクでは、長さのみが異なるベクトルは依然として等しいと見なされるため、コサイン類似度が類似度インジケータとしてしばしば好まれます。距離/コサインの類似性が最小のドキュメントが最も類似していると見なされます。