タグ付けされた質問 「similarities」

分布、クラスタリング、データセット、またはその他のオブジェクト間の近さの尺度。

6
2つの正規分布の重複領域の割合
と 2つの正規分布をσ 2、μ 2σ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 2つの分布の重複領域の割合を計算するにはどうすればよいですか? この問題には特定の名前があると思いますが、この問題を説明する特定の名前を知っていますか? この実装(Javaコードなど)を知っていますか?


1
異なる距離と方法で得られた階層的クラスタリング樹状図の比較
[最初のタイトル「階層的クラスタリングツリーの類似性の測定」は、トピックをよりよく反映するために@ttnphnsによって後に変更されました] 私は患者記録のデータフレームでいくつかの階層的クラスター分析を実行しています(例:http ://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=yに類似) 私は、さまざまな距離測定、さまざまなパラメーターの重み、さまざまな階層的手法を試し、最終的なクラスター/構造/ビューのツリー(樹形図)への影響を理解しています。異なる階層ツリー間の差を計算する標準的な計算/尺度があるかどうか、およびRでこれを実装する方法(たとえば、一部のツリーがほぼ同一で、一部が大幅に異なることを定量化する)

1
類似度行列を(ユークリッド)距離行列に変換する
ランダムフォレストアルゴリズムでは、Breiman(著者)は次のように類似度行列を作成します。 すべての学習例をフォレスト内の各ツリーに送信します 2つの例が同じ葉にある場合、類似度マトリックスの対応する要素を1ずつ増やします。 木の数で行列を正規化する 彼は言い​​ます: ケースnとkの間の近接性は、行列{prox(n、k)}を形成します。それらの定義から、この行列が対称で正定であり、1に等しい対角要素で上に1で区切られていることを示すのは簡単です。値1-prox(n、k)はユークリッドの平方距離ケースの数以下の次元の空間。ソース 彼の実装では、彼はsqrt(1-prox)を使用します。ここで、proxは類似度行列で、距離行列に変換します。これは、上記の「ユークリッド空間での二乗距離」と関係があると思います。 1プロキシがユークリッド空間の平方距離である理由と、平方根を使用して距離行列を取得する理由を誰かが少し明らかにすることはできますか?

2
バイナリデータの類似性係数:ラッセルとラオよりもジャカードを選択する理由
統計科学百科事典 Iは、与えられたことを理解し(変数)属性、我々は任意の二つのオブジェクトのための分割表を形成することができ;二値(0 =なし1 =本バイナリ)は、I及びJのサンプルを:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables where object i is 1 and j is …

5
余弦の非類似度行列を計算するR関数はありますか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 去年閉鎖されました。 コサイン距離に基づく行クラスタリングを使用してヒートマップを作成したいと思います。私はRを使用heatmap.2()して図を作成しています。私はそこだと見ることができdist、パラメータは、heatmap.2私はコサイン非類似度行列を生成する機能を見つけることができません。組み込みのdist機能は、コサイン距離をサポートしていない、私はとも呼ばれるパッケージたarulesとdissimilarity()機能をそれだけで、バイナリデータで動作します。

5
曲線間の類似性測定?
私は下の点の2つの順序セット---のものとの間の類似性の尺度を計算したいユーザーの下でのものと比較先生: ポイントは3D空間の曲線ですが、図のように2次元でプロットすると問題が簡単になると考えていました。ポイントが重複する場合、類似度は100%でなければなりません。

3
ユークリッド距離スコアと類似度
Toby Segaran著のCollective Intelligenceという本を扱っているところですが、ユークリッドの距離スコアに出会いました。この本では、著者は2つの推奨配列(つまり、の類似性を計算する方法を示しています。person×movie↦score)person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) 彼は二人のためのユークリッド距離を算出するおよびP 2によって D (P 1、P 2)= √p1p1p_1p2p2p_2d(p1,p2)=∑i ∈ item(sp1−sp2)2−−−−−−−−−−−−−√d(p1,p2)=∑i ∈ item(sp1−sp2)2d(p_1, p_2) = \sqrt{\sum_{i~\in~\textrm{item}} (s_{p_1} - s_{p_2})^2} これは私にとって完全に理にかなっています。私が本当に理解していないのは、彼が最後に「距離ベースの類似性」を得るために以下を計算する理由です。 11+d(p1,p2)11+d(p1,p2) \frac{1}{1 + d(p_1, p_2)} だから、私はどういうわけかこれは距離から類似度への変換でなければならないことを知っています(右?)。しかし、なぜフォーミュラはこのように見えるのでしょうか?誰かがそれを説明できますか?

3
2つのデータセット間の類似性の定量化
概要:最適な方法を見つけようとすると、単一の値を使用して、データの2つの位置合わせされたデータセット間の類似性が要約されます。 詳細: 私の質問は図で説明するのが一番です。以下のグラフは、2つの異なるデータセットを示しており、それぞれにとのラベルが付いた値がnfありnrます。x軸に沿った点は、測定が行われた場所を表し、y軸の値は結果の測定値です。 各グラフについて、各測定ポイントの類似性nfとnr値を要約する単一の数値が必要です。この例では、最初のグラフの結果が2番目のグラフの結果よりも似ていないことが視覚的に明らかです。しかし、違いがそれほど明白でない他のデータがたくさんあるので、これを定量的にランク付けできると便利です。 通常使用される標準的な手法があるかもしれないと思った。統計的な類似性を検索すると、さまざまな結果が得られますが、何を選択するのが最善か、または問題に自分の準備ができているかどうかはわかりません。ですから、簡単な答えがある場合、この質問はここで質問する価値があると思いました。

4
行の正規化の目的は何ですか
列の正規化の背後にある理由を理解します。これは、同じスケールで測定されていなくてもフィーチャに均等に重み付けされるためです。ただし、最近接文献では、列と行の両方が正規化されていることがよくあります。行の正規化とは何ですか?なぜ正規化するのですか?具体的には、行の正規化の結果は行ベクトル間の類似性/距離にどのように影響しますか?

1
属性が名目である場合、個人にとって最適な距離関数は何ですか?
名義(順序付けされていないカテゴリ)属性の場合に使用する個人間の距離関数がわかりません。私はいくつかの教科書を読んでいて、それらはSimple Matching関数を提案していますが、一部の本は、名義をバイナリ属性に変更してJaccard係数を使用するべきだと提案しています。ただし、名義属性の値が2でない場合はどうなりますか?その属性に3つまたは4つの値がある場合はどうなりますか? 名義属性にはどの距離関数を使用すればよいですか?

2
文字列パターンを学習するための機械学習手法
自分で定義したさまざまなカテゴリに属する​​単語のリストがあります。各カテゴリには独自のパターンがあります(たとえば、1つは特殊文字を含む固定長で、もう1つはこの「単語」のカテゴリでのみ発生する文字の存在です...)。 例えば: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... 私は、トレーニングデータに基づいて、これらのパターンを独自に学習するための機械学習手法を探しています。私はすでに自分でいくつかの予測変数(たとえば、語長、特殊文字の数など)を定義しようとし、ニューラルネットワークを使用してカテゴリを学習および予測しました。しかし、それは実際には私が望むものではありません。各カテゴリーのパターンを自分で習得するテクニック、つまり、私が考えたこともないパターンを習得するテクニックも必要です。 したがって、アルゴリズム学習データ(単語カテゴリの例からなる)を指定し、各カテゴリのパターンを学習して、後で類似または等しい単語からカテゴリを予測するようにします。 それを行うための最先端の方法はありますか? ご協力いただきありがとうございます

2
マーサーの定理は逆に機能しますか?
同僚には関数あり、私たちの目的ではそれはブラックボックスです。この関数は、2つのオブジェクトの類似度を測定します。ssss(a,b)s(a,b)s(a,b) は次のプロパティがあることは確かです。sss 類似性スコアは、0から1までの実数です。 自己同一のオブジェクトのみのスコアが1です。したがって、意味しその逆も同様です。s(a,b)=1s(a,b)=1s(a,b)=1a=ba=ba=b ことが保証されています。s(a,b)=s(b,a)s(a,b)=s(b,a)s(a,b) = s(b,a) ここで彼は、入力として距離を必要とし、距離の公理を満たす入力に依存するアルゴリズムを使用したいと考えています。 私の考えは(それがユークリッドノルムまたは他の距離かもしれない)、私達はちょうど代数で並べ替えることができ、すなわち、彼らはいくつかの距離とRBFカーネルの結果であるかのように、我々は類似性スコアを扱うことができることだったと仮定類似度スコアは、を参照していることいくつかの(不明な)座標系のポイントのペアのRBFカーネル。 s(xi,xj)−rlogs(xi,xj)−−−−−−−−−−−−√=exp(−d(mi,mj)2r)=d(mi,mj)s(xi,xj)=exp⁡(−d(mi,mj)2r)−rlog⁡s(xi,xj)=d(mi,mj) \begin{align} s(x_i,x_j) &= \exp\left(-\frac{d( m_i, m_j)^2}{r}\right) \\ \sqrt{-r \log s(x_i,x_j) } &= d(m_i,m_j) \\ \end{align} ここで、は不明なベクトルで、は対象のオブジェクトで、は距離です。mα∈Rnmα∈Rnm_\alpha \in \mathbb{R}^nxαxαx_\alphaddd 距離公理を尊重するという点で、明白な特性がうまくいきます。結果は負でない必要があり、距離は同一のオブジェクトに対してのみ0です。しかし、このかなり一般的な一連の状況が、三角形の不平等が尊重されることを暗示するのに十分であることは明らかではありません。 一方、これはちょっとクレイジーに聞こえます。 「そこに存在しないされて、私の質問は、だから、、その結果用上のこれらのプロパティ与えられたいくつかの距離メトリック、その何である?」ffff(s(a,b))=d(a,b)f(s(a,b))=d(a,b)f(s(a,b))=d(a,b)dddsssfff 場合上のこれらの一般的な状況では存在しない、そのための要件の追加セットがあり存在しますか?fffsssfff

1
Dice、Jaccard、overlap係数の違いは何ですか?[閉まっている]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 2年前休業。 2つのセットを比較するために、特に画像のセグメンテーション(たとえば、グラウンドトゥルースとセグメント化された結果の類似性の比較)のために、3つの異なる統計的測定値に出くわします。 これらの測定値の違いは何ですか(これらは数学的に非常に似ています): サイコロ ジャカード オーバーラップ 私はDiceを使用した論文をより頻繁に見ていますが、他の人はJaccardとオーバーラップ係数の使用を提案しています。それらの違いは何ですか?

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.