タグ付けされた質問 「distance」

n空間内の点間のユークリッド距離など、分布または変数間の距離の測定。

9
マハラノビス距離の一番下の説明?
私はパターン認識と統計を研究しており、マハラノビス距離の概念にぶつかる主題について私が開くほとんどすべての本です。本は一種の直観的な説明を提供しますが、それでも私が実際に何が起こっているのかを実際に理解するには十分ではありません。誰かが「マハラノビス距離とは何ですか?」私は答えることしかできませんでした:「それはある種の距離を測定するこの素晴らしいことです」:) 定義には通常、固有ベクトルと固有値も含まれていますが、マハラノビス距離との接続には少し問題があります。固有ベクトルと固有値の定義を理解していますが、それらはマハラノビス距離とどのように関係していますか?線形代数などでベースを変更することに関係していますか? 私はまた、主題に関するこれらの以前の質問を読みました: マハラノビス距離とは何ですか?パターン認識でどのように使用されますか? ガウス分布関数とマハラノビス距離の直感的な説明(Math.SE) 私もこの説明を読みました。 答えは素晴らしく良いと絵ですが、まだ私はしていない、本当に私はアイデアを持っているが、それは暗闇の中で、まだだ...それを得ます。誰かが「おばあちゃんにそれをどのように説明しますか」という説明を与えることができますか?:)それはどこから来たのですか、何で、なぜですか? 更新: マハラノビスの式を理解するのに役立つものを次に示します。 https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
Kullback-Leibler(KL)発散に関する直観
モデル分布関数がデータの理論的/真の分布とどれだけ異なるかということから、KL発散の背後にある直感について学びました。私が読んでいるソースは、これらの2つの分布間の「距離」の直感的な理解が役立つと言い続けていますが、2つの分布PPPとQQQではKL発散はPPPとQQQ対称ではないため、文字通り解釈すべきではありません。 私は最後の声明を理解する方法がわかりません、またはこれは「距離」の直感が壊れるところですか? シンプルだが洞察に満ちた例に感謝します。

2
階層的クラスタリングのための正しいリンケージ方法の選択
Google BigQueryのredditデータダンプから収集および処理したデータに対して階層クラスタリングを実行しています。 私のプロセスは次のとおりです。 / r / politicsで最新の1000件の投稿を取得 すべてのコメントを集める データを処理し、n x mデータマトリックスを計算します(n:users / samples、m:posts / features) 階層的クラスタリングの距離行列を計算する リンク方法を選択して、階層クラスタリングを実行します データを樹状図としてプロットする 私の質問は、最適なリンケージ方法がどのように決定されるのですか?私は現在、使用していますWardが、私が使用してするかどうか私は知らないsingle、complete、average、など? 私はこのようなものに非常に新しいですが、私は1つが確かではないので、オンラインで明確な答えを見つけることができません。それでは、私のアプリケーションにとって良いアイデアは何でしょうか?n x mマトリックスに多くのゼロがあるという意味で、データは比較的まばらであることに注意してください(ほとんどの人は、数件以上の投稿にコメントしません)。

1
類似度行列を(ユークリッド)距離行列に変換する
ランダムフォレストアルゴリズムでは、Breiman(著者)は次のように類似度行列を作成します。 すべての学習例をフォレスト内の各ツリーに送信します 2つの例が同じ葉にある場合、類似度マトリックスの対応する要素を1ずつ増やします。 木の数で行列を正規化する 彼は言い​​ます: ケースnとkの間の近接性は、行列{prox(n、k)}を形成します。それらの定義から、この行列が対称で正定であり、1に等しい対角要素で上に1で区切られていることを示すのは簡単です。値1-prox(n、k)はユークリッドの平方距離ケースの数以下の次元の空間。ソース 彼の実装では、彼はsqrt(1-prox)を使用します。ここで、proxは類似度行列で、距離行列に変換します。これは、上記の「ユークリッド空間での二乗距離」と関係があると思います。 1プロキシがユークリッド空間の平方距離である理由と、平方根を使用して距離行列を取得する理由を誰かが少し明らかにすることはできますか?


1
Mantelテストを非対称行列に拡張できますか?
マンテル検定は通常、対称距離/差分行列に適用されます。私が理解している限り、テストの前提は、差を定義するために使用される尺度が少なくとも半メトリックでなければならないということです(メトリックの標準要件を満たしますが、三角形の不等式は満たしません)。 対称性の仮定を緩和することができますか(事前測定基準を与える)?この場合、完全行列を使用して置換テストを適用することはできますか?

1
距離メトリックとしての相関の使用(階層クラスタリングの場合)
データを階層的にクラスター化したいのですが、ユークリッド距離を使用するのではなく、相関を使用したいと思います。また、相関係数の範囲は-1から1であり、研究では-1と1の両方が「共規制」を表すため、-1と1の両方をd = 0として扱います。したがって、私の計算は d= 1 − | r | d=1−|r|\ d = 1-|r| コサイン定理を使用してrを真のユークリッドdに変換する必要があることを別の質問(k-meansクラスタリングに関して)で読みました:d= 2 (1 − r )−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 階層的クラスタリングの相関を距離に変換する最も正確な方法は何ですか?

8
特徴点ごとのデータではなく、距離行列のみを使用してK平均(またはその近縁)クラスタリングを実行します。
所有しているオブジェクトに対してK-meansクラスタリングを実行したいのですが、オブジェクトは空間内のポイント、つまりobjects x featuresデータセットによって記述されていません。ただし、2つのオブジェクト間の距離は計算できます(類似度関数に基づいています)。そのため、距離行列を破棄しobjects x objectsます。 私は以前にK-meansを実装しましたが、それはポイントデータセットの入力でした。距離行列の入力では、ポイント表現なしでクラスタを「中心」に更新する方法が明確ではありません。これは通常どのように行われますか?そのために、それに近いK-meansまたはメソッドのバージョンはありますか?

4
ユークリッドベースのクラスタリングアルゴリズムで混合データが問題になるのはなぜですか?
ほとんどの古典的なクラスタリングおよび次元削減アルゴリズム(階層的クラスタリング、主成分分析、k-means、自己組織化マップ...)は数値データ専用に設計されており、それらの入力データはユークリッド空間の点と見なされます。 これはもちろん問題です。多くの現実世界の質問には混合データが含まれているためです。たとえば、バスを勉強する場合、高さと長さ、モーターサイズは数字になりますが、色(カテゴリ変数:青/ red / green ...)および容量クラス(順序変数:小/中/大容量)。具体的には、これらのさまざまなタイプの変数を同時に調べたい場合があります。 たとえば、階層型クラスタリングまたは多次元スケーリングにプラグインするGowerの非類似性、または距離行列を入力として使用する他の方法を使用して、従来のクラスタリングアルゴリズムを混合データに拡張する方法がいくつかあります。または、たとえばこのメソッド、混合データへのSOMの拡張。 私の質問は、なぜ混合変数にユークリッド距離を使用できないのですか?またはなぜそうするのが悪いのですか?カテゴリ変数をダミーエンコードし、すべての変数を観測間の距離で同様の重みを持つように正規化し、これらの行列で通常のアルゴリズムを実行できないのはなぜですか? それは本当に簡単であり、一度も行われたことがないので、それは非常に間違っていると思いますが、誰がその理由を教えてもらえますか?および/またはいくつかのrefを教えてください?ありがとう

3
2つの正規分布の差の分布
正規分布の2つの確率密度関数があります。 f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } そして f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } 私はx1x1x_1と間の分離の確率密度関数を探していx2x2x_2ます。私はそれが確率密度関数を探していることを意味すると思います x 1 − x 2 | |x1−x2||x1−x2||x_1 - x_2|。あれは正しいですか?どうやって見つけるの?

1
変数内の分散とペアワイズ距離の間のリンク
、我々は2つの変数を(同じサンプルサイズ)があればということを証明してくださいとと分散でよりも大きい、その後、差の2乗和内のデータポイント間の(ユークリッド距離の二乗すなわち)もより大きく、内のそれ。Y X YXXXYYYXXXYYYYXXXYYY

9
ペアワイズマハラノビス距離
共変量のn×pn×pn \times p行列の観測の各ペア間のRのサンプルマハラノビス距離を計算する必要があります。効率的な解決策が必要です。つまり、n(n−1)/2n(n−1)/2n(n-1)/2距離のみが計算され、C / RCpp / Fortranなどで実装することが望ましいです。母共分散行列ΣΣ\Sigmaは未知であり、サンプル共分散を使用すると仮定しますその場所のマトリックス。 Rのペアワイズマハラノビス距離を計算するための「コンセンサス」方法がないように思われるため、この質問に特に興味distがありcluster::daisyます。つまり、関数にも関数にも実装されていません。このmahalanobis関数は、プログラマーの追加作業なしにペアワイズ距離を計算しません。 これはすでにここでRのペアワイズマハラノビス距離を求められましたが、そこでの解は間違っているようです。 これは正しいですが、ひどく非効率です(n × nn×nn \times n距離が計算されるため): set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) これはCで自分でコーディングするのに十分簡単ですが、この基本的なものには既存のソリューションがあるはずです。あるの? 不足している他のソリューションがあります:n (n − 1 )/ 2個の一意の距離のみが必要な場合、n × n距離をHDMD::pairwise.mahalanobis()計算します。有望に思えますが、に依存するパッケージから関数を取得したくないので、コードを実行する他の人の能力が大幅に制限されます。この実装が完全でない限り、自分で作成したいです。この機能の経験はありますか?n × nn×nn \times nn (n − 1 )/ 2n(n−1)/2n(n-1)/2compositions::MahalanobisDist()rgl
18 r  algorithms  distance 

3
実際にカルバック・ライブラーの発散を計算しますか?
2 p間の非類似性の尺度としてKL発散を使用しています。メートル。F 。p 。メートル。f。p。m。f。p.m.f. PPPとQQQ。 DKL(P| | Q)= ∑i = 1Nln(P私Q私)P私DKL(P||Q)=∑私=1Nln⁡(P私Q私)P私D_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i = − ∑ P(X私)l n (Q (X私)) + ∑ P(X私)l n (P(X私))=−∑P(バツ私)ln(Q(バツ私))+∑P(バツ私)ln(P(バツ私))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) もし 、我々は簡単に計算することができ、その P (X I)L N ( Q (X I)) = 0 P (X I)L N …

3
2つの頻度分布間の統計的な「距離」を測定する方法は?
私は、年間を通じてウェブサイトの使用時間を調査するデータ分析プロジェクトに取り組んでいます。私がやりたいのは、使用パターンがどの程度「一貫性がある」かを比較することです。たとえば、週に1回1時間使用するパターン、または1回10分間使用するパターンにどれだけ近いかを比較します。週に数回。私は計算できるいくつかのことを知っています: シャノンエントロピー:結果の「確実性」がどれだけ異なるか、つまり確率分布が均一な分布とどれだけ異なるかを測定します。 カルバック・リーブラー発散:ある確率分布が他の確率分布とどれだけ異なるかを測定します Jensen-Shannon発散: KL 発散と似ていますが、有限値を返すため、より有用です スミルノフ・コルモゴロフ検定:連続したランダム変数の2つの累積分布関数が同じサンプルに由来するかどうかを判定する検定。 カイ2乗検定:頻度分布が予想される頻度分布とどれだけ異なるかを判断する適合度検定。 私がやりたいのは、実際の使用期間(青)が理想的な使用時間(オレンジ)とどれだけ異なるかを比較することです。これらの分布は離散的であり、以下のバージョンは正規化されて確率分布になります。水平軸は、ユーザーがWebサイトで費やした時間(分単位)を表します。これは、年の各日について記録されています。ユーザーがウェブサイトにまったくアクセスしていない場合、これはゼロ期間としてカウントされますが、これらは度数分布から削除されています。右側は累積分布関数です。 私の唯一の問題は、JSダイバージェンスを取得して有限値を返すことができても、異なるユーザーを見て、それらの使用量分布を理想的なものと比較すると、ほとんど同じ値を取得することです(したがって、これは良くありませんそれらがどれだけ異なるかの指標)。また、頻度分布ではなく確率分布に正規化すると、かなりの情報が失われます(たとえば、学生がプラットフォームを50回使用する場合、バーの長さの合計が50になるように青色の分布を垂直にスケーリングする必要があります。オレンジ色のバーの高さは1ではなく50にする必要があります。「一貫性」とは、ユーザーがWebサイトにアクセスする頻度が、Webサイトからの離脱に影響するかどうかです。彼らがウェブサイトにアクセスした回数が失われた場合、確率分布の比較は少し疑わしいです。ユーザーの継続時間の確率分布が「理想的な」使用量に近い場合でも、そのユーザーは1年間にプラットフォームを1週間しか使用しなかった可能性があり、おそらく一貫性はありません。 2つの頻度分布を比較し、それらがどれほど似ている(または似ていない)かを特徴付ける何らかのメトリックを計算するための確立された手法はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.