タグ付けされた質問 「similarities」

分布、クラスタリング、データセット、またはその他のオブジェクト間の近さの尺度。

3
時系列間の類似点を見つける方法は?
次の例では、海の5つの水深で記録された水温測定の時系列で構成されるデータフレームがあり、各値はTempの日付DateTimeと水深に対応していますDepth。 set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each = 8760), …

2
非類似度メジャーの重みを見つける方法
クラスタリングに使用できる非類似度メジャーの属性の重みを学習(推定)したいと思います。 「類似」するオブジェクトのペアのいくつかの例(同じクラスター内にある必要があります)、および「類似していない」オブジェクトのペアのいくつかの例(c i、d i)があります。 "(同じクラスター内にあってはなりません)。各オブジェクトにはいくつかの属性があります。必要に応じて、各オブジェクトをd次元の特徴ベクトルと考えることができます。ここで、各特徴は非負の整数です。そのような類似/非類似オブジェクトの例を使用して、非類似度測定値の最適な特徴の重みをそれらから推定する手法はありますか?(ai,bi)(ai,bi)(a_i,b_i)(ci,di)(ci,di)(c_i,d_i)ddd それが役立つ場合、私のアプリケーションでは、重み付けされたL2ノルムである非類似度の測定に集中することはおそらく妥当でしょう。 d(x,y)=∑jαj(x[j]−y[j])2.d(x,y)=∑jαj(x[j]−y[j])2.d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. どこの重み知られていないと学習されるべきです。(または、重み付きコサイン類似性尺度のいくつかの種類があまりにも合理的であるかもしれない。)の重みを学習することが良いアルゴリズムですα Jを例与えられ、そのような措置のために?または、私が考慮すべき類似性測定値/非類似性測定値を学習する他の方法はありますか?αjαj\alpha_jαjαj\alpha_j ディメンションの数は残念ながら非常に多くなっています(数千以上。バッグオブワード機能から派生しています)。しかし、私は何万もの例を持っています。次に、クラスタ化したいオブジェクトが数十万あるので、優れた非類似度メトリックを学習するには、例から一般化することが重要です。 私はこれが半教師ありクラスタリングのルーブリックに該当することを収集します。これは「類似性適応」の傾向のように聞こえますが、この目的に使用するアルゴリズムの明確な説明を見つけることができませんでした。

3
行列乗算を使用してバイナリデータのJaccardまたはその他の関連係数を計算する
行列の乗算を使用してJaccard係数を計算する可能な方法があるかどうかを知りたいです。 私はこのコードを使用しました jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } これはRで実装しても問題ありません。ダイスの類似性を1つ作成しましたが、谷本/ Jaccardで行き詰まりました。誰でも手伝ってくれる?

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
人は、3つの中から最も類似する2つのアイテムを繰り返し選択します。アイテム間の知覚距離をモデル化/推定する方法は?
人には3つの項目(顔の写真など)が与えられ、3つの顔のうちどれが最も類似しているかを選択するよう求められます。これは、顔のさまざまな組み合わせで何度も繰り返されます。各顔は多くの組み合わせで発生する可能性があります。この種のデータを考慮して、各面間の距離が2D空間(または3D、4Dなど)に配置され、各面間の距離が参加者。 これをモデル化/推定するための良い(おそらく標準的な)方法は何でしょうか? モデル/論文および/またはソフトウェアパッケージへのポインタは高く評価されます。

3
距離計量と次元の呪い
あなたが多くのパラメータを持っているなら (x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n)そして、これらのベクトル間の「類似性メトリック」を見つけようとすると、「次元の呪い」があるかもしれません。これは、ほとんどの類似性スコアが等しくなり、有用な情報を提供しないことを意味すると思います。言い換えると、ほとんどすべてのパートナーベクトルには中程度の距離スコアがあり、分類やクラスタリングなどには役立ちません。 それについて私がどこでより詳細に学ぶことができるか知っていますか? この影響を受けにくい指標はありますか?

1
単語のバッグの類似性を定量化する
最も一般的な単語と2つの異なる記事の頻度を含む2つのデータセットがあります。 例えば: A = [apple: 23, healthy: 15, tasty: 4] B = [apple: 19, healthy: 21, bad: 7] 両方のデータセットに類似した単語が含まれています。2つの記事が同じことについて話しているかどうかを知るための指標を見つけたいと思います。この場合、彼らはリンゴとその健康上の利点について話し合っているかもしれません。 のような単純な測定値を取得できますsimilarity = words in A and B / total number of wordsが、頻度を重みとして使用するより正式な測定値がありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.