タグ付けされた質問 「distance」

n空間内の点間のユークリッド距離など、分布または変数間の距離の測定。

3
Kullback-Leibler(KL)発散の最大値は何ですか
私は私のpythonコードでKL発散を使用するつもりで、このチュートリアルを手に入れました。 そのチュートリアルでは、KLの発散を実装するのは非常に簡単です。 kl = (model * np.log(model/actual)).sum() 私が理解したように、確率分布modelとは、actual<= 1でなければなりません。 私の質問は、kの最大限界/最大可能値は何ですか?私のコードの上限については、kl距離の可能な最大値を知る必要があります。

1
距離相関の直感的な特性評価はありますか?
私はそれがどのように計算できるかによって特徴付けられると思われる距離相関についてウィキペディアのページを見つめてきました。計算はできましたが、距離相関の測定値と、計算が実際のように見える理由を取得するのに苦労しています。 それが測定するものを理解するのを助けることができる距離相関の(または多くの)より直感的な特性評価はありますか? 直観を求めることは少しあいまいですが、どんな直感を求めているかを知っていれば、そもそも尋ねなかっただろう。また、2つのランダム変数間の距離相関のケースに関する直感を喜んでいます(2つのランダムなベクトル間で距離相関が定義されている場合でも)。

5
距離(ユークリッド)を類似度スコアに変換する方法
私はを使用してkkkクラスタリングを行い、話者の声をクラスタリングします。発話をクラスター化されたスピーカーデータと比較すると、(ユークリッド距離に基づく)平均歪みが得られます。この距離は、範囲になります[0,∞][0,∞][0,\infty]。私はこの距離を変換したい[0,1][0,1][0,1]類似性スコア。これを達成する方法を教えてください。


2
最大平均不一致(距離分布)
異なる分布に従う2つのデータセット(ソースデータとターゲットデータ)があります。ソースデータとターゲットデータ間の周辺分布を計算するために、MMD(これはノンパラメトリック距離分布です)を使用しています。 ソースデータ、X ターゲットデータ、Xt 適応マトリックスA *予測データ、Zs = A '* XsおよびZt = A' Xt * MMD =>距離(P(Xs)、P(Xt))= | mean(A'Xs)-mean(A ' Xt)| つまり、元の空間のソースデータとターゲットデータ間の分布の距離は、埋め込み空間の投影されたソースデータとターゲットデータの平均間の距離に相当します。 MMDのコンセプトについて質問があります。 MMD式で、なぜ潜在空間での距離を計算すると、元の空間での分布の距離を測定できるのでしょうか。 ありがとう

1
距離の差の統計的有意性
2次元グリッド上に3000を超えるベクトルがあり、ほぼ均一な離散分布です。ベクトルのいくつかのペアは特定の条件を満たす。注:条件はベクトルのペアにのみ適用され、個々のベクトルには適用されません。約1500個のこのようなペアのリストがあります。これをグループ1と呼びましょう。グループ2には他のすべてのベクトルペアが含まれています。グループ1のペアのベクトル間の距離が、2つのベクトル間の平均距離よりも大幅に短いかどうかを確認したいと思います。どうやってやるの? 統計的検定:中心極限定理は私の事例に適用できますか?つまり、距離のサンプルを使用し、スチューデントのt検定を使用して、条件を満たすサンプルの平均と条件を満たさないサンプルの平均を比較できますか?それ以外の場合、ここではどのような統計的検定が適切でしょうか? サンプルサイズとサンプル数:ここには2つの変数があることがわかります。2つのグループのそれぞれに対して、サイズmのn個のサンプルを取得し、各サンプルの平均を取得する必要があります。nとmを選択する原則的な方法はありますか?それらは可能な限り大きくすべきですか?または、統計的有意性を示す限り、できるだけ小さくする必要がありますか?2つのグループのそれぞれで同じにする必要がありますか?または、より多くのベクトルペアを含むグループ2の方が大きくする必要がありますか?

4
これらの相関ベースの距離に対して、三角形の不等式は満たされていますか?
階層的クラスタリングの場合、2つのランダム変数XXXと間の距離を測定するために、次の2つの「メトリック」(正確には言えません)をよく目にしますYYY。 \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align} どちらかが三角形の不等式を満たしますか?もしそうなら、単に総当たり計算を行う以外にどのように証明する必要がありますか?それらがメトリックではない場合、簡単なカウンターの例は何ですか?

2
有限混合ガウス混合とガウス混合の間の距離はどのくらいですか?
既知の重み、平均、標準偏差を持つ有限数のガウス分布が混在しているとします。平均は等しくありません。もちろん、モーメントは成分のモーメントの加重平均であるため、混合物の平均および標準偏差を計算できます。混合は正規分布ではありませんが、正規分布からどれくらい離れていますか? 222 111 動機:怠zyな人たちは、測定していない実際の分布については意見が異なります。私も怠け者です。分布も測定したくありません。彼らの仮定は矛盾していると言いたいのです。なぜなら、彼らは異なる手段をもつガウス分布の有限混合は正しくないガウス分布だと言っているからです。テールの漸近的な形状が間違っているとは言いたくありません。これらは、平均のいくつかの標準偏差内で合理的に正確であると想定される単なる近似であるためです。成分が正規分布によって近似されている場合、混合はそうではないと言いたいので、これを定量化できるようにしたいと思います。 L1L1L^12221/41/41/4

4
行の正規化の目的は何ですか
列の正規化の背後にある理由を理解します。これは、同じスケールで測定されていなくてもフィーチャに均等に重み付けされるためです。ただし、最近接文献では、列と行の両方が正規化されていることがよくあります。行の正規化とは何ですか?なぜ正規化するのですか?具体的には、行の正規化の結果は行ベクトル間の類似性/距離にどのように影響しますか?

2
ガワー距離はどのようにバイナリ変数間の差を計算しますか?
データセットには73個のサンプルがあり、17個の数値と5個のバイナリ(0-1)変数があります。クラスター分析を実行する必要があります。ガワー距離は、変数が混在するデータセットに適したメトリックであることを知っています。しかし、ガワー距離がバイナリ変数間の差をどのように計算するのか理解できませんでした。ユークリッド距離と変わらないようです。

1
属性が名目である場合、個人にとって最適な距離関数は何ですか?
名義(順序付けされていないカテゴリ)属性の場合に使用する個人間の距離関数がわかりません。私はいくつかの教科書を読んでいて、それらはSimple Matching関数を提案していますが、一部の本は、名義をバイナリ属性に変更してJaccard係数を使用するべきだと提案しています。ただし、名義属性の値が2でない場合はどうなりますか?その属性に3つまたは4つの値がある場合はどうなりますか? 名義属性にはどの距離関数を使用すればよいですか?

2
マーサーの定理は逆に機能しますか?
同僚には関数あり、私たちの目的ではそれはブラックボックスです。この関数は、2つのオブジェクトの類似度を測定します。ssss(a,b)s(a,b)s(a,b) は次のプロパティがあることは確かです。sss 類似性スコアは、0から1までの実数です。 自己同一のオブジェクトのみのスコアが1です。したがって、意味しその逆も同様です。s(a,b)=1s(a,b)=1s(a,b)=1a=ba=ba=b ことが保証されています。s(a,b)=s(b,a)s(a,b)=s(b,a)s(a,b) = s(b,a) ここで彼は、入力として距離を必要とし、距離の公理を満たす入力に依存するアルゴリズムを使用したいと考えています。 私の考えは(それがユークリッドノルムまたは他の距離かもしれない)、私達はちょうど代数で並べ替えることができ、すなわち、彼らはいくつかの距離とRBFカーネルの結果であるかのように、我々は類似性スコアを扱うことができることだったと仮定類似度スコアは、を参照していることいくつかの(不明な)座標系のポイントのペアのRBFカーネル。 s(xi,xj)−rlogs(xi,xj)−−−−−−−−−−−−√=exp(−d(mi,mj)2r)=d(mi,mj)s(xi,xj)=exp⁡(−d(mi,mj)2r)−rlog⁡s(xi,xj)=d(mi,mj) \begin{align} s(x_i,x_j) &= \exp\left(-\frac{d( m_i, m_j)^2}{r}\right) \\ \sqrt{-r \log s(x_i,x_j) } &= d(m_i,m_j) \\ \end{align} ここで、は不明なベクトルで、は対象のオブジェクトで、は距離です。mα∈Rnmα∈Rnm_\alpha \in \mathbb{R}^nxαxαx_\alphaddd 距離公理を尊重するという点で、明白な特性がうまくいきます。結果は負でない必要があり、距離は同一のオブジェクトに対してのみ0です。しかし、このかなり一般的な一連の状況が、三角形の不平等が尊重されることを暗示するのに十分であることは明らかではありません。 一方、これはちょっとクレイジーに聞こえます。 「そこに存在しないされて、私の質問は、だから、、その結果用上のこれらのプロパティ与えられたいくつかの距離メトリック、その何である?」ffff(s(a,b))=d(a,b)f(s(a,b))=d(a,b)f(s(a,b))=d(a,b)dddsssfff 場合上のこれらの一般的な状況では存在しない、そのための要件の追加セットがあり存在しますか?fffsssfff

2
共分散行列を作る変数間の距離とは何ですか?
私が持っているの共分散行列をとに区分変数にしたいk個使用してクラスタ階層的クラスタリングを(例えば、共分散行列をソートします)。n×nn×nn \times nkkk 変数間(つまり、正方共分散行列の列/行間)の典型的な距離関数はありますか? それとももっとある場合、そのトピックに関する良い参考資料はありますか?

4
不規則な時系列の動的タイムワーピング
最近、ダイナミックタイムワーピング(DTW)についてたくさん読んでいます。DTWの不規則な時系列への適用に関する文献がまったくないか、少なくとも見つけることができなかったことに非常に驚いています。 誰かが私にその問題に関連する何かへの参照、またはそれの実装さえ与えるかもしれませんか?

3
どの距離を使用しますか?例:マンハッタン、ユークリッド、ブレイカーティスなど
私はコミュニティ生態学者ではありませんが、最近はコミュニティ生態学データに取り組んでいます。 これらの距離の数学を除いて、私が理解できなかったのは、使用する各距離の基準と、それがどのような状況で適用できるかです。たとえば、カウントデータで何を使用しますか?2つの場所の間の傾斜角を距離に変換する方法は?または、2つの場所の温度または降水量ですか?各距離の前提条件は何ですか?それはいつ意味がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.