タグ付けされた質問 「distance-functions」

距離関数は、セットのメンバー間、またはオブジェクト間の距離の概念を定量化するために使用される関数を指します。

8
ユークリッド距離が高次元で適切なメトリックではないのはなぜですか?
「ユークリッド距離は、高次元では良い距離ではない」と読みました。この声明は次元の呪いと関係があると思いますが、正確には何ですか?また、「高次元」とは何ですか?100個の特徴を持つユークリッド距離を使用して階層的クラスタリングを適用しています。このメトリックを使用しても「安全」な機能はいくつまでありますか?

6
クラスタリング方法の選択
データセットでクラスター分析を使用して同様のケースをグループ化する場合、多数のクラスタリング手法と距離の測定値から選択する必要があります。場合によっては、1つの選択が他の選択に影響を与える可能性がありますが、多くの方法の組み合わせが可能です。 誰もがさまざまなクラスタリングアルゴリズム/方法と距離測定の選択方法に関する推奨事項を持っていますか?これは、変数の性質(カテゴリまたは数値など)およびクラスタリングの問題とどのように関連していますか?最適なテクニックはありますか?

6
k-meansクラスタリングアルゴリズムがユークリッド距離メトリックのみを使用するのはなぜですか?
効率または機能性に関して、k-meansアルゴリズムがコサイン(dis)の類似性を距離メトリックとして使用せず、ユークリッドノルムのみを使用できる理由はありますか?一般に、ユークリッド以外の距離が考慮または使用される場合、K-means法は準拠し、正しいですか? [@ttnphnsによる追加。質問は2つあります。「(非)ユークリッド距離」は、2つのデータポイント間の距離、またはデータポイントとクラスター中心間の距離に関係する場合があります。これまでのところ、両方の方法で回答を取り上げようとしました。]

3
2つの正規分布したランダム変数間のユークリッド距離の分布は何ですか?
正確な位置は不明ですが、既知のパラメーター(および使用して正規分布に従って分布している2つのオブジェクトが与えられていると仮定します。我々は、これらの位置が上に分布によって記述されるように、両方の二変量法線であると仮定することができる座標(すなわち、および期待含むベクターであるの座標とそれぞれ)。また、オブジェクトは独立していると仮定します。a∼N(m,s)a∼N(m,s)a \sim N(m, s)b∼N(v,t))b∼N(v,t))b \sim N(v, t))(x,y)(x,y)(x,y)mmmvvvB(x,y)(x,y)(x,y)aaabbb これらの2つのオブジェクト間のユークリッド距離の2乗分布が既知のパラメトリック分布であるかどうかは誰にもわかりませんか?または、この関数のPDF / CDFを分析的に導出する方法は?



1
異なる距離と方法で得られた階層的クラスタリング樹状図の比較
[最初のタイトル「階層的クラスタリングツリーの類似性の測定」は、トピックをよりよく反映するために@ttnphnsによって後に変更されました] 私は患者記録のデータフレームでいくつかの階層的クラスター分析を実行しています(例:http ://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=yに類似) 私は、さまざまな距離測定、さまざまなパラメーターの重み、さまざまな階層的手法を試し、最終的なクラスター/構造/ビューのツリー(樹形図)への影響を理解しています。異なる階層ツリー間の差を計算する標準的な計算/尺度があるかどうか、およびRでこれを実装する方法(たとえば、一部のツリーがほぼ同一で、一部が大幅に異なることを定量化する)

5
2つの多変量分布間の「距離」の測定
リソースを探しやすくするために、私がやろうとしていることを説明するための良い用語を探しています。 したがって、ポイントAとBの2つのクラスターがあり、それぞれが2つの値XとYに関連付けられており、AとBの間の「距離」を測定したいとします。 (分布は正常であると仮定できます)。たとえば、XとYがAでは相関しているがBでは相関していない場合、分布は異なります。 直観的には、Aの共分散行列を取得し、Bの各点がそこに収まる可能性を調べ、逆も同様です(おそらくマハラノビス距離のようなものを使用して)。 しかし、それは少し「アドホック」であり、おそらくこれを記述するためのより厳密な方法があります(もちろん、実際には3つ以上の変数を持つ3つ以上のデータセットがあります-私は自分のデータセットのどれかを特定しようとしています外れ値です)。 ありがとう!

2
2つの分布間のHellinger距離の不偏推定量はありますか?
密度分布から分布観察する設定では、密度別の分布、すなわち 距離の不偏推定量(基づく)があるのだろうかX1,…,XnX1,…,XnX_1,\ldots,X_nX 、I 、F 0 H(F 、F 0)= { 1 - ∫ X √fffXiXiX_if0f0f_0H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

1
重み付きユークリッド距離を使用する場合と、使用する重みを決定する方法は?
各データがnnn異なるメジャーで構成されるデータのセットがあります。各メジャーについて、ベンチマーク値があります。各データがベンチマーク値にどれだけ近いかを知りたい。 次のように加重ユークリッド距離を使用することを考えました: dx 、b= (∑ni = 1w私(x私- B私)2))1 / 2dバツ、b=(∑私=1nw私(バツ私−b私)2))1/2\hspace{0.5in} d_{x,b}=\left( \sum_{i=1}^{n}w_i(x_i-b_i)^2)\right)^{1/2} どこ バツ私バツ私\hspace{0.5in}x_iは、特定のデータのi番目のメジャーの値です b私b私\hspace{0.5in}b_iは、そのメジャーに対応するベンチマーク値です。 w私w私\hspace{0.5in} w_iは、次の条件に従って、i番目のメジャーにアタッチする間の重みの値です。 0 &lt; w私&lt; 10&lt;w私&lt;1\hspace{1in}0<w_i<1および∑ni = 11∑私=1n1\sum_{i=1}^{n}1 しかし、このドキュメントに基づいて、使用する重みはi番目のメジャーの分散の逆数であることがわかりました。このような重み付けは、各メジャーに付加する重要性を説明するとは思わない。 したがって: 観測者のメジャーの相対的な重要性を反映する重みのセットを思いつく方法はありますか、または観測者は重みに任意の値を割り当てることができますか? この問題を解決するには、重み付きユークリッド距離を使用するのが適切ですか?

3
階層的クラスタリングでマンハッタン距離をワードのクラスター間リンケージで使用しても大丈夫ですか?
階層的クラスタリングを使用して、時系列データを分析しています。私のコードはMathematica関数を使用して実装さDirectAgglomerate[...]れ、次の入力が与えられると階層クラスターを生成します: 距離行列D クラスタ間リンケージを決定するために使用されるメソッドの名前。 マンハッタン距離を使用して距離行列Dを計算しました: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| ここで、およびは、時系列のデータポイントの数です。i=1,⋯,ni=1,⋯,ni = 1,\cdots, nn≈150n≈150n \approx 150 私の質問は、ウォードのクラスター間リンケージをマンハッタン距離行列で使用しても大丈夫ですか?一部の情報源は、ウォードのリンケージはユークリッド距離でのみ使用されるべきだと示唆しています。 DirectAgglomerate[...]元の観測値ではなく、距離行列のみを使用してウォードのリンケージを計算することに注意してください。残念ながら、Mathematicaが Wardの元のアルゴリズムをどのように変更するかわかりません。これは、クラスター平均に関して計算された観測値の誤差の平方和を最小化することで機能しました。たとえば、単変量観測のベクトルで構成されるクラスターccc場合、Wardは誤差の平方和を次のように定式化しました。 (∑j||cj−mean(c)||2)2(∑j||cj−mean(c)||2)2(\sum_j||c_j - mean(c)||_2)^2 (MatlabやRなどの他のソフトウェアツールも、距離行列のみを使用してWardのクラスタリングを実装しているため、問題はMathematicaに固有のものではありません。)

1
クラスタリング:Jensen-Shannon Divergenceまたはその正方形を使用する必要がありますか?
Affinity Propagationアルゴリズムを使用して確率分布をクラスタリングしており、距離メトリックとしてJensen-Shannon Divergenceを使用する予定です。 JSD自体を距離として使用するのは正しいですか、それともJSDの2乗ですか?どうして?どちらを選択するとどのような違いが生じますか?

3
クラスタリングの
誰もがL 2ではなく、またはL .5メトリックをクラスタリングに使用していますかL1L1L_1L.5L.5L_.5L2L2L_2ますか? Aggarwal et al。、 高次元空間での距離メトリックの驚くべき振る舞いについて (2001年) は、ユークリッド距離計量よりも一貫して好ましい L1L1L_1、高次元データマイニングアプリケーションで L 2L2L2L_2 そして、L.5L.5L_.5またはがさらに優れているました。L.1L.1L_.1 L 1を使用する理由L1L1L_1または、理論的または実験的である可能性があります。たとえば、外れ値/カバンの論文に対する感度、または実際のデータまたは合成データで実行されるプログラムです(再現可能)。例や写真は、私の素人の直感を助けるでしょう。L.5L.5L_.5 この質問は、ボブ・デュラントの回答に対するフォローアップです When-is-nearest-neighbor-meaningful-todayです。彼が言うように、の選択はデータとアプリケーションの両方に依存します。それにもかかわらず、実際の経験のレポートは有用でしょう。ppp 6月7日火曜日に追加されたメモ: 私は、「L1-ノルムおよび関連する方法に基づく統計データ分析」、Dodge ed。、2002、454p、isbn 3764369205 —多数の会議論文に出くわしました。 誰でもiid指数関数の距離集中を分析できますか?指数関数の1つの理由は ; 別の(専門家ではない)は、最大エントロピー分布が 0 以上であることです。3つ目は、一部の実際のデータセット、特にSIFTはほぼ指数関数的に見えることです。|exp−exp|∼exp|exp−exp|∼exp|exp - exp| \sim exp≥≥\ge

3
ユークリッド距離スコアと類似度
Toby Segaran著のCollective Intelligenceという本を扱っているところですが、ユークリッドの距離スコアに出会いました。この本では、著者は2つの推奨配列(つまり、の類似性を計算する方法を示しています。person×movie↦score)person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) 彼は二人のためのユークリッド距離を算出するおよびP 2によって D (P 1、P 2)= √p1p1p_1p2p2p_2d(p1,p2)=∑i ∈ item(sp1−sp2)2−−−−−−−−−−−−−√d(p1,p2)=∑i ∈ item(sp1−sp2)2d(p_1, p_2) = \sqrt{\sum_{i~\in~\textrm{item}} (s_{p_1} - s_{p_2})^2} これは私にとって完全に理にかなっています。私が本当に理解していないのは、彼が最後に「距離ベースの類似性」を得るために以下を計算する理由です。 11+d(p1,p2)11+d(p1,p2) \frac{1}{1 + d(p_1, p_2)} だから、私はどういうわけかこれは距離から類似度への変換でなければならないことを知っています(右?)。しかし、なぜフォーミュラはこのように見えるのでしょうか?誰かがそれを説明できますか?

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 &gt; require(nlme) &gt; options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) &gt; m2&lt;-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.