タグ付けされた質問 「distance」

n空間内の点間のユークリッド距離など、分布または変数間の距離の測定。

2
固定距離内のポイント数を最大にする既知の数の円中心を見つける
指定された距離()内のポイントの総数を最大化する、指定された数の円の中心()の中心を見つけたい2次元データのセットがあります。RNNNRRR たとえば、10,000個のデータポイントあり、半径内でできるだけ多くのポイントをキャプチャする円の中心を見つけたいと考えています。5つの中心と10の半径は、データからではなく、あらかじめ与えられています。N = 5 R = 10(X私、Y私)(Xi,Yi)(X_i, Y_i)N= 5N=5N=5R = 10R=10R=10 円内のデータポイントの存在は、バイナリまたは命題のいずれかです。場合、どちらも> 10であるため、値が11単位離れている点と100単位離れている点で差はありません。同様に、円内にある場合も、中心付近と端付近の値は異なります。 。データポイントは、いずれかの円の中にあるか外にあります。R = 10R=10R=10 この問題を解決するために使用できる優れたアルゴリズムはありますか?これらはクラスタリング手法に関連しているようですが、平均距離を最小化するのではなく、「距離」関数は、ポイントがポイントのいずれかの内にある場合は0、それ以外の場合は1です。NRRRNNN 私の好みはRでこれを行う方法を見つけることですが、どのようなアプローチでもありがたいです。
10 r  clustering  distance 

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
2つの均一に分散されたポイント間の予想距離を見つける方法は?
Iは、座標を定義した場合および(X 2、Y 2)(X1,Y1)(X1,Y1)(X_{1},Y_{1})(X2,Y2)(X2,Y2)(X_{2},Y_{2}) X1,X2∼Unif(0,30) and Y1,Y2∼Unif(0,40).X1,X2∼Unif(0,30) and Y1,Y2∼Unif(0,40).X_{1},X_{2} \sim \text{Unif}(0,30)\text{ and }Y_{1},Y_{2} \sim \text{Unif}(0,40). それらの間の距離の期待値をどのように見つけますか? 距離は、によって算出されるので、私は、考えていたと期待される値ちょうど?(1/30+1/30)2+(1/40+1/40)2(X1−X2)2+(Y1−Y2)2−−−−−−−−−−−−−−−−−−−√)(X1−X2)2+(Y1−Y2)2)\sqrt{(X_{1}-X_{2})^{2} + (Y_{1}-Y_{2})^{2}})(1/30+1/30)2+(1/40+1/40)2(1/30+1/30)2+(1/40+1/40)2(1/30 + 1/30)^2 + (1/40+1/40)^2

4
非対称距離メジャーを使用したクラスタリング
非対称距離メジャーを使用してフィーチャをどのようにクラスタリングしますか? たとえば、曜日を特徴としてデータセットをクラスタリングしているとしましょう。月曜日から金曜日までの距離は金曜日から月曜日までの距離と同じではありません。 これをクラスタリングアルゴリズムの距離測定にどのように組み込みますか?

1
距離行列から重心間の距離を計算する効率的な方法
n点間の2乗ユークリッド距離正方対称行列と、点のクラスターまたはグループメンバーシップ(クラスター)を示すベクトルがあるとします。クラスタはポイントで構成される場合があります。DD\bf Dんんnんんnkkk≥ 1≥1\ge1 何が最も効率的か(速度の点で)本当に効率的な方法クラスタ重心間の計算距離ここでは? これまでのところ、私は常にこの状況で主座標分析を行いました。PCoA、またはTorgersonのMDSは、最初にをスカラー積の行列( "double centering")に変換してから、そのPCAを実行することになります。このようにして、それらがまたがるユークリッド空間の点の座標を作成します。その後は、データを使用する場合と同じように、重心間の距離を通常の方法で簡単に計算できます。PCoAは対称正準半定固有分解またはSVDを実行する必要がありますが、S n S nDD\bf DSS\bf Sんんngrouped points x variablesn x nSS\bf Sんんnかなり大きくなる可能性があります。さらに、このタスクは次元削減ではなく、実際にはこれらの直交する主軸は必要ありません。だから私はこれらの分解が行き過ぎかもしれないと感じています。 だから、あなたは潜在的に高速な方法についての知識やアイデアを持っていますか?

2
長方形内の一様にランダムな点がユークリッド距離が指定されたしきい値よりも小さい確率
持っていると仮定します nnn 境界のある長方形の点 [0,a]×[0,b][0,a]×[0,b][0,a] \times [0,b]、これらの点はこの平面に均一に分布しています。(私は統計に精通していないので、エリア内のノードを均一に選択することの違いがわかりません[0,a]×[0,b][0,a]×[0,b][0,a] \times [0,b]、または均一に選ぶ xxx-軸 [0,a][0,a][0,a] そして yyy-軸 [0,b][0,b][0,b] 独立して)。 距離のしきい値が与えられた ddd、2点のユークリッド距離が次の値よりも小さい確率を知りたい場合があります。 ddd、またはより正確には、ノードの距離のペアがいくつになるか ddd? たぶん、次の説明はあいまいではありません。 この問題を特定させてください。与えられたnnn ノードとしきい値 ddd。これらnnn ポイントは長方形に均一に分布しています [0,a]×[0,b][0,a]×[0,b][0,a] \times [0,b]。確率変数を表すξξ\xi 距離内のポイントのペアの数として ddd。探すE[ξ]E[ξ]E[\xi]。

3
距離計量と次元の呪い
あなたが多くのパラメータを持っているなら (x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n)そして、これらのベクトル間の「類似性メトリック」を見つけようとすると、「次元の呪い」があるかもしれません。これは、ほとんどの類似性スコアが等しくなり、有用な情報を提供しないことを意味すると思います。言い換えると、ほとんどすべてのパートナーベクトルには中程度の距離スコアがあり、分類やクラスタリングなどには役立ちません。 それについて私がどこでより詳細に学ぶことができるか知っていますか? この影響を受けにくい指標はありますか?

2
オートエンコーダーは距離を維持しますか?
私の理解に基づいて、オートエンコーダを使用して、重要な基本情報を含む入力機能のコンパクトな表現を見つけます。 元の入力空間のL2距離と縮小(コンパクト)空間の間に関係はありますか?そうでない場合、コンパクトな表現が変換後の距離を維持するようにネットワークをトレーニングできますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.