統計とビッグデータ cosine-similarity

2

同一の意味。ベクトルuとベクトルVのセット間の類似度ランキングで同一の結果を生成します。パラメータとして距離測度（ユークリッド距離、コサイン類似度）および正規化手法（なし、l1、l2）を持つベクトル空間モデルがあります。私の理解では、設定[cosine、none]の結果は[euclidean、l2]と同じか、少なくとも実際には似ているはずですが、そうではありません。実際には、システムにまだバグがある可能性が十分にあります。または、ベクターに関して重大な問題がありますか？編集：ベクトルはコーパス内のドキュメントの単語数に基づいていることを忘れていました。クエリドキュメント（ワードカウントベクトルで変換する）が与えられた場合、コーパスから最も類似したドキュメントを見つけたいと思います。それらのユークリッド距離を計算することは簡単な測定ですが、私が取り組んでいる種類のタスクでは、長さのみが異なるベクトルは依然として等しいと見なされるため、コサイン類似度が類似度インジケータとしてしばしば好まれます。距離/コサインの類似性が最小のドキュメントが最も類似していると見なされます。

27 normalization natural-language euclidean cosine-distance cosine-similarity

4

負の余弦の類似性の解釈

私の質問はばかげているかもしれません。あらかじめお詫び申し上げます。私はスタンフォードNLPグループ（リンク）によって事前トレーニングされたGLOVEモデルを使用しようとしていました。しかし、私の類似性の結果がいくつかの負の数を示していることに気づきました。すぐに、単語ベクトルデータファイルを確認するように求められました。どうやら、単語ベクトルの値は負になることが許されていました。これが、コサインの負の類似性を見た理由です。 [0、1]で値が制限されている周波数ベクトルのコサイン類似度の概念に慣れています。ベクトル間の角度に応じて、内積と余弦関数が正または負になる場合があることを知っています。しかし、私はこの否定的な余弦の類似性を理解して解釈するのに本当に苦労しています。たとえば、類似性が-0.1の単語のペアがある場合、類似性が0.05の別のペアよりも類似性が低いですか？-0.9と0.8の類似度を比較してみませんか？または私はちょうどからの最低限の角度差の絶対値になります？スコアの絶対値は？nはπnπn\pi とても感謝しています。

17 machine-learning word2vec cosine-similarity

1

コサインの類似性、ピアソン相関、およびZスコアの間に関係はありますか？

これらの3つの対策の間に何か関係があるのだろうかと思います。定義を参照することでそれらの間のつながりを作ることができないようです（おそらくこれらの定義に慣れていないので、それらをつかむのに少し苦労しているからです）。コサインの類似性の範囲は0〜1であり、ピアソン相関の範囲は-1〜1であり、zスコアの範囲は不明です。ただし、コサイン類似性の特定の値がピアソン相関またはzスコアについてどのように伝えることができるか、またはその逆はどうでしょうか？

16 correlation z-score cosine-similarity

1

自動キーワード抽出：余弦の類似性を特徴として使用

ドキュメント用語マトリックスを取得しました。次に、教師付き学習方法（SVM、Naive Bayesなど）を使用して、各ドキュメントのキーワードを抽出したいと思います。このモデルでは、すでにTf-idf、Posタグなどを使用しています...MMM しかし、今私は次のことを考えています。項間のコサインの類似性を持つ行列があります。CCC この類似性をモデルの機能として使用する可能性はありますか？私の考えは、言葉のためだったの文書にドキュメント内のすべての用語のコサイン類似点の平均値を使用するように、用語で。これは便利ですか？dはD Iを私私idddddd私私i

12 text-mining feature-construction supervised-learning cosine-distance cosine-similarity

1

パフォーマンスの観点からの単語埋め込みアルゴリズム

約6000万のフレーズをベクトル空間に埋め込み、それらの間のコサイン類似度を計算しようとしています。CountVectorizerユニグラムとバイグラムを生成するカスタムビルドのトークナイザー関数でsklearnを使用してきました。意味のある表現を得るには、行数に比例した膨大な数の列を許可する必要があることがわかります。これは、非常にまばらな行列につながり、パフォーマンスを低下させます。約10,000列しかなかったとしてもそれほど悪くはありません。これは、単語の埋め込みにはかなり妥当だと思います。私はword2vecそれがはるかに低次元でより高密度の埋め込みを生成すると確信しているので、Googleを使用しようと考えています。しかしその前に、最初に見ておくべき他の埋め込みがありますか？重要な要件は、約6,000万のフレーズ（行）をスケーリングできることです。私は単語埋め込みの分野にかなり慣れていないので、アドバイスがあれば助かります。また、パフォーマンスを向上させるために、特異値分解をすでに使用していることも付け加えておきます。

11 machine-learning natural-language word2vec word-embeddings cosine-similarity

3

コサイン類似度とユークリッド距離（LSA）のK平均

潜在的意味解析を使用して、低次元空間でドキュメントのコーパスを表現しています。これらのドキュメントをk-meansを使用して2つのグループにクラスター化したいと思います。数年前、私はPythonのgensimを使用してこれを行い、独自のk-meansアルゴリズムを作成しました。ユークリッド距離を使用してクラスターの重心を決定しましたが、重心とのコサイン類似性に基づいて各ドキュメントをクラスター化しました。かなりうまくいったようです。今、私はこれをはるかに大きなドキュメントのコーパスで実行しようとしています。K-meansは収束しておらず、コードのバグかどうか疑問に思っています。最近読んだのは、コサイン類似度を使用してクラスター化しないことです。k平均はユークリッド距離でのみ機能するためです。私が述べたように、それでも私の小さなテストケースではうまく機能するように見えました。 LSA Wikipediaページでこれに遭遇しました：ドキュメントと用語ベクトル表現は、コサインのような類似性測定を使用するk-meansのような従来のクラスタリングアルゴリズムを使用してクラスター化できます。どっち？コサイン類似度を使用できますか？

10 k-means svd lsa cosine-distance cosine-similarity

2

線形変換後、コサイン類似度はどのように変化しますか？

間に数学的な関係はありますか？ 2つのベクトルとのコサイン類似度、およびsim(A,B)sim⁡(A,B)\operatorname{sim}(A, B)BAAABBB コサイン類似度の及び、不均一にスケーリングされ、所与の行列を介して？ここで、は与えられた対角行列で、対角要素が等しくありません。A Bsim(MA,MB)sim⁡(MA,MB)\operatorname{sim}(MA, MB)AAABBBMMMMMMM 計算を重ねてみましたが、シンプルで面白いリンク（式）にたどり着けませんでした。あるかしら。たとえば、角度は不均一なスケーリングでは保持されませんが、元の角度と不均一なスケーリング後の角度の関係はどうですか？ベクトルS1のセットとベクトルS2の別のセットの間のリンクについては何が言えるでしょうか。S2はS1を不均一にスケーリングすることによって得られます。

9 linear-algebra cosine-similarity

タグ付けされた質問 「cosine-similarity」

タグ付けされた質問「cosine-similarity」