タグ付けされた質問 「metric」

メトリックは、セットの2つの要素間の距離を出力し、特定の厳密な基準を満たす関数です(一部の「距離」関数はメトリックではありません)。

8
ユークリッド距離が高次元で適切なメトリックではないのはなぜですか?
「ユークリッド距離は、高次元では良い距離ではない」と読みました。この声明は次元の呪いと関係があると思いますが、正確には何ですか?また、「高次元」とは何ですか?100個の特徴を持つユークリッド距離を使用して階層的クラスタリングを適用しています。このメトリックを使用しても「安全」な機能はいくつまでありますか?

6
2つの正規分布の重複領域の割合
と 2つの正規分布をσ 2、μ 2σ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 2つの分布の重複領域の割合を計算するにはどうすればよいですか? この問題には特定の名前があると思いますが、この問題を説明する特定の名前を知っていますか? この実装(Javaコードなど)を知っていますか?

4
分類の想起と精度
情報検索のコンテキストでは毎回ですが、想起と精度の定義をいくつか読みました。私は誰かがこれを分類の文脈でもう少し説明し、おそらくいくつかの例を説明できるかどうか疑問に思っていました。たとえば、60%の精度と95%のリコールを提供するバイナリ分類器があるとします。これは良い分類器ですか? 私の目標をもう少し助けるために、あなたによる最高の分類器は何ですか?(データセットは不均衡です。マジョリティクラスにはマイノリティクラスの2倍の例があります) 個人的には、レシーバーオペレーターカーブの下の面積のために5と言います。 (ここでわかるように、モデル8の精度は低く、再現率は非常に高くなっていますが、AUC_ROCが最も低いモデルの1つであるため、良いモデルですか?それとも悪いモデルですか?) 編集: 詳細情報を含むExcelファイルがあります:https : //www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx このドキュメントでは、レシーバーオペレーターカーブの下の領域と精密リコールカーブの下の領域を見つけることができます。プロットと一緒に。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
Kullback-Leibler発散と比較したWassersteinメトリックの利点は何ですか?
Wasserstein計量とKullback-Leibler発散の実際の違いは何ですか?Wassersteinメトリックは、Earth Mover's Distanceとも呼ばれます。 ウィキペディアから: Wasserstein(またはVaserstein)メトリックは、所定のメトリック空間Mの確率分布間で定義される距離関数です。 そして Kullback–Leiblerの発散は、1つの確率分布が2番目の予想確率分布からどのように発散するかの尺度です。 機械学習の実装でKLが使用されているのを見てきましたが、最近、Wassersteinメトリックに出会いました。どちらを使用するかについての良いガイドラインはありますか? (Wassersteinまたはで新しいタグを作成するには評判が不十分Earth mover's distanceです。)

5
ランダムフォレストの誤分類のコストを制御する方法は?
RパッケージrandomForestで誤分類のコストを制御することは可能ですか? 私自身の研究では、偽陰性(例えば、人が病気にかかっている可能性があるというミス)は、偽陽性よりもはるかに費用がかかります。パッケージrpartを使用すると、損失マトリックスを指定して誤分類に異なる重みを付けることにより、誤分類コストを制御できます。同様の何かが存在しrandomForestますか?たとえば、classwtGini基準を制御するオプションを使用する必要がありますか?

2
クラスタリングの比較:ランドインデックスと情報のバリエーション
クラスタリングを比較するための情報のバリエーションとランドインデックスの違いの背後にある洞察や直感を誰かが持っているのではないかと思っていました。 マリーナメリアの論文「Comparing Clusterings-An Information Based Distance」(2007年、多変量解析ジャーナル)を読んだことがありますが、定義の違いに気付く以外に、情報のばらつきが何であるかがわかりませんrandインデックスがキャプチャしないことをキャプチャします。


2
ジェンセンシャノンダイバージェンスvsカルバックライブラーダイバージェンス?
KLダイバージェンスは対称的ではなく、厳密にメトリックと見なすことはできません。そうである場合、JS Divergenceがメトリックに必要なプロパティを満たすときに使用されるのはなぜですか? KLダイバージェンスは使用できるが、JSダイバージェンスは使用できない、またはその逆のシナリオはありますか?


4
これらの相関ベースの距離に対して、三角形の不等式は満たされていますか?
階層的クラスタリングの場合、2つのランダム変数XXXと間の距離を測定するために、次の2つの「メトリック」(正確には言えません)をよく目にしますYYY。 \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align} どちらかが三角形の不等式を満たしますか?もしそうなら、単に総当たり計算を行う以外にどのように証明する必要がありますか?それらがメトリックではない場合、簡単なカウンターの例は何ですか?

2
共分散行列のメトリック:欠点と長所
共分散行列の「最良の」メトリックスは何ですか、そしてなぜですか?Frobenius&cは適切ではなく、角度のパラメーター化にも問題があることは明らかです。直感的にこれらの2つの間の妥協を望むかもしれませんが、心に留めておくべき他の側面やおそらく確立された標準があるかどうかも知りたいです。 共通メトリックは、共分散行列にとって自然ではないため、さまざまな欠点があります。たとえば、非PSD行列に特にペナルティを課したり、ランクに対して適切に動作しないことがよくあります(2つの回転した低ランク共分散楕円体を考えてください:同じです) -コンポーネントの平均よりも距離が短くなるように中間回転をランク付けします。これは、やおそらくフロベニウスには当てはまりません。ここで修正してください)。また、凸性は必ずしも保証されていません。これらの問題やその他の問題を「良い」指標で対処するのは良いことです。L1L1L_1 ここではいくつかの問題の良い議論、あるネットワーク最適化の一例とコンピュータビジョンの一つが。そして、ここに他のいくつかのメトリックを取得するが議論なしの同様の質問があります。

1
scikit Learnの慣性公式のクラスタリング
パンダとscikit学習を使用して、Pythonでkmeansクラスタリングをコーディングしたいと思います。良いkを選択するために、Tibshirani and al 2001(pdf)からのギャップ統計をコード化したいと思います。 すべての距離計算を再コーディングする必要なしに、scikitの惰性結果を使用してギャップ統計式を適応できるかどうか知りたいのですが。 高レベル距離関数を使用してギャップ統計を再コーディングする簡単な方法をscikitで使用されている慣性公式を知っている人はいますか?

2
階層的クラスタリングが有効であるためには、距離が「メトリック」である必要がありますか?
N個のアイテム間の距離をmetricではないものと定義するとします。 この距離に基づいて、次に凝集階層的クラスタリングを使用します。 既知の各アルゴリズム(単一/最大/平均リンクなど)を使用して、意味のある結果を取得できますか?または別の言い方をすると、距離がメトリックでない場合にそれらを使用することの問題は何ですか?

3
k-meansと他の指標の併用
したがって、これは以前に尋ねられたことに気づきます。たとえば、さまざまな距離メトリックのクラスター分析に関連するユースケースは何ですか?しかし、私は文献で提案されているものとは多少矛盾する答えが可能であることを発見しました。 最近、他のメトリックでkmeansアルゴリズムを使用することについて言及している2つの論文を読んだことがあります。たとえば、文字列間の距離の編集や、分布間の「地球の移動距離」などです。これらの論文は、特にポイントのセットの平均を計算する場合、方法を指定せずに他のメトリックでkmeansを使用することについて言及していることを考えると、おそらく私が選択していない、これに対処するためのいくつかの「標準」方法があることを示唆しています上に。 たとえば、k-meansアルゴリズムをより高速に実装できるこのペーパーを見てください。イントロのパラグラフ4からの引用では、著者は彼のアルゴリズムを「任意のブラックボックス距離メトリックで使用できる」と述べ、次のパラグラフでは具体的な例として編集距離に言及しています。しかし、彼のアルゴリズムは一連の点の平均を計算し、これが他のメトリックスの結果にどのように影響するかについては言及していません(平均が編集距離でどのように機能するかについては特に困惑しています)。 この他のペーパーでは、テキサスホールデム抽象化のためにk-meansを使用してポーカーハンドをクラスター化する方法について説明します。左の列の下部のページ2にジャンプする場合、著者は「そして、k-meansを使用して、ヒストグラムの各ペア間のEarth Mover Distanceを距離メトリックとして使用して、目的のクラスター数で抽象化を計算します。 私はこれらの論文を説明してくれる人を本当に探しているわけではありませんが、他の測定基準でk-meansを使用するための標準的な方法がありませんか?アースムーバーの距離を使用した標準的な平均化はヒューリスティックに機能するように見えますが、編集距離は金型にまったく適合しないようです。私は誰かが与えることができるどんな洞察にも感謝します。 (編集):私は先に進み、アースムーバーの距離(ポーカーペーパーにあるものと同様)を使用して分布ヒストグラムでk平均法を試してみましたが、うまく機能しているようで、出力したクラスターは私のユースケースにかなり適しているように見えました。平均化では、ヒストグラムをベクトルとして扱い、通常の方法で平均化しました。私が気づいたことの1つは、平均までの距離のすべてのポイントの合計が常に単調に減少するとは限らないことです。しかし実際には、単調な問題にもかかわらず、10回以内の反復でローカルの最小値に収まります。これは彼らが2番目の論文で行ったものであると仮定します。残っている唯一の問題は、編集距離のようなものを使用する場合、一体どのように平均するのでしょうか。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.