タグ付けされた質問 「euclidean」

7
ユークリッド距離は通常、スパースデータには適していませんか?
多次元データとスパースデータがある場合、古典的な距離(ユークリッド距離など)が弱判別性になることをどこかで見ました。どうして?ユークリッド距離がうまく機能しない2つのスパースデータベクトルの例はありますか?この場合、どの類似性を使用する必要がありますか?

6
k-meansクラスタリングアルゴリズムがユークリッド距離メトリックのみを使用するのはなぜですか?
効率または機能性に関して、k-meansアルゴリズムがコサイン(dis)の類似性を距離メトリックとして使用せず、ユークリッドノルムのみを使用できる理由はありますか?一般に、ユークリッド以外の距離が考慮または使用される場合、K-means法は準拠し、正しいですか? [@ttnphnsによる追加。質問は2つあります。「(非)ユークリッド距離」は、2つのデータポイント間の距離、またはデータポイントとクラスター中心間の距離に関係する場合があります。これまでのところ、両方の方法で回答を取り上げようとしました。]

2
コサイン類似度はl2正規化ユークリッド距離と同一ですか?
同一の意味。ベクトルuとベクトルVのセット間の類似度ランキングで同一の結果を生成します。 パラメータとして距離測度(ユークリッド距離、コサイン類似度)および正規化手法(なし、l1、l2)を持つベクトル空間モデルがあります。私の理解では、設定[cosine、none]の結果は[euclidean、l2]と同じか、少なくとも実際には似ているはずですが、そうではありません。 実際には、システムにまだバグがある可能性が十分にあります。または、ベクターに関して重大な問題がありますか? 編集:ベクトルはコーパス内のドキュメントの単語数に基づいていることを忘れていました。クエリドキュメント(ワードカウントベクトルで変換する)が与えられた場合、コーパスから最も類似したドキュメントを見つけたいと思います。 それらのユークリッド距離を計算することは簡単な測定ですが、私が取り組んでいる種類のタスクでは、長さのみが異なるベクトルは依然として等しいと見なされるため、コサイン類似度が類似度インジケータとしてしばしば好まれます。距離/コサインの類似性が最小のドキュメントが最も類似していると見なされます。

1
類似度行列を(ユークリッド)距離行列に変換する
ランダムフォレストアルゴリズムでは、Breiman(著者)は次のように類似度行列を作成します。 すべての学習例をフォレスト内の各ツリーに送信します 2つの例が同じ葉にある場合、類似度マトリックスの対応する要素を1ずつ増やします。 木の数で行列を正規化する 彼は言い​​ます: ケースnとkの間の近接性は、行列{prox(n、k)}を形成します。それらの定義から、この行列が対称で正定であり、1に等しい対角要素で上に1で区切られていることを示すのは簡単です。値1-prox(n、k)はユークリッドの平方距離ケースの数以下の次元の空間。ソース 彼の実装では、彼はsqrt(1-prox)を使用します。ここで、proxは類似度行列で、距離行列に変換します。これは、上記の「ユークリッド空間での二乗距離」と関係があると思います。 1プロキシがユークリッド空間の平方距離である理由と、平方根を使用して距離行列を取得する理由を誰かが少し明らかにすることはできますか?

5
距離(ユークリッド)を類似度スコアに変換する方法
私はを使用してkkkクラスタリングを行い、話者の声をクラスタリングします。発話をクラスター化されたスピーカーデータと比較すると、(ユークリッド距離に基づく)平均歪みが得られます。この距離は、範囲になります[0,∞][0,∞][0,\infty]。私はこの距離を変換したい[0,1][0,1][0,1]類似性スコア。これを達成する方法を教えてください。

1
Jeffries Matusitaの距離の長所
私が読んでいるいくつかの論文によると、ジェフリーズとマツシタの距離が一般的に使用されています。しかし、私は以下の式を除いてそれについて多くの情報を見つけることができませんでした JMD(X、Y)= ∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} 平方根以外はユークリッド距離に似ています E(X、Y)= ∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} 分類の点では、JM距離はユークリッド距離よりも信頼性が高いとされています。なぜこの違いがJM距離を改善するのか、誰か説明できますか?

3
どの距離を使用しますか?例:マンハッタン、ユークリッド、ブレイカーティスなど
私はコミュニティ生態学者ではありませんが、最近はコミュニティ生態学データに取り組んでいます。 これらの距離の数学を除いて、私が理解できなかったのは、使用する各距離の基準と、それがどのような状況で適用できるかです。たとえば、カウントデータで何を使用しますか?2つの場所の間の傾斜角を距離に変換する方法は?または、2つの場所の温度または降水量ですか?各距離の前提条件は何ですか?それはいつ意味がありますか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
私のニューラルネットワークはユークリッド距離も学習できません
だから私は自分自身にニューラルネットワークを教えようとしています(猫の写真を分類するのではなく、回帰アプリケーションのために)。 私の最初の実験は、FIRフィルターと離散フーリエ変換を実装するためのネットワークのトレーニング(「前」と「後」の信号でトレーニング)でした。これらはどちらも活性化機能のない単一のレイヤーで実装できる線形演算だからです。 どちらもうまくいきました。 それで、私はを追加してabs()、振幅スペクトルを学習させることができるかどうかを見たかったのです。最初に、非表示層に必要なノードの数を考え、3のReLUがの大まかな近似に十分であることを認識したabs(x+jy) = sqrt(x² + y²)ので、その操作を単独の複素数(2入力→3 ReLUノードの非表示層→1)で単独でテストしました出力)。時々それは動作します: しかし、私がそれを試すほとんどの場合、それは極小値で行き詰まり、正しい形を見つけることができません: KerasですべてのオプティマイザーとReLUバリアントを試してみましたが、それほど違いはありません。このような単純なネットワークを確実に収束させるために他に何かできることはありますか?それとも私は間違った態度でこれに近づいていますか、そしてあなたは問題で必要以上に多くのノードを投げるはずであり、それらの半分が死んだとしても大したこととは考えられませんか?

1
距離行列から重心間の距離を計算する効率的な方法
n点間の2乗ユークリッド距離正方対称行列と、点のクラスターまたはグループメンバーシップ(クラスター)を示すベクトルがあるとします。クラスタはポイントで構成される場合があります。DD\bf Dんんnんんnkkk≥ 1≥1\ge1 何が最も効率的か(速度の点で)本当に効率的な方法クラスタ重心間の計算距離ここでは? これまでのところ、私は常にこの状況で主座標分析を行いました。PCoA、またはTorgersonのMDSは、最初にをスカラー積の行列( "double centering")に変換してから、そのPCAを実行することになります。このようにして、それらがまたがるユークリッド空間の点の座標を作成します。その後は、データを使用する場合と同じように、重心間の距離を通常の方法で簡単に計算できます。PCoAは対称正準半定固有分解またはSVDを実行する必要がありますが、S n S nDD\bf DSS\bf Sんんngrouped points x variablesn x nSS\bf Sんんnかなり大きくなる可能性があります。さらに、このタスクは次元削減ではなく、実際にはこれらの直交する主軸は必要ありません。だから私はこれらの分解が行き過ぎかもしれないと感じています。 だから、あなたは潜在的に高速な方法についての知識やアイデアを持っていますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.