タグ付けされた質問 「clustering」

クラスター分析は、クラスラベルなどの既存の知識を使用せずに、相互の「類似性」に従ってデータをオブジェクトのサブセットに分割するタスクです。[clustered-standard-errorsおよび/またはcluster-samplesはそのようにタグ付けする必要があります。それらには「クラスタリング」タグを使用しないでください。]

1
kmeansクラスタリングのためのRでの統計パッケージの使用
クラスタパッケージの1つまたは2つの側面を理解できません。私はQuick-Rの例に厳密に従っていますが、分析の1つまたは2つの側面を理解していません。この特定の例で使用しているコードを含めました。 ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 131.4349206, 0, 762.6110846, 3837.850406), b = c(19578.64174, 2233.308842, 4714.514274, 0, 2760.510002, 1225.392118, 3706.428246, 2693.353714, 2674.126613, 592.7384164, 1820.976961, 1318.654162, 1075.854792, 1211.248996, 1851.363623, 3245.540062, 1711.817955, 2127.285272, …
10 r  clustering 

1
クラスター分析とその後の判別分析
文献で時々見られるように、k-meansのようなクラスタリングアルゴリズムの結果に対して判別分析(DA)を使用する根拠は(もしあれば)何ですか(本質的には精神障害の臨床的サブタイピングについて)。 クラス間の(クラス内の)慣性の最大化(または最小化)をサポートするため、クラスターの構築中に使用された変数のグループの違いをテストすることは一般に推奨されません。したがって、より低い次元の階乗空間に個人を埋め込み、そのようなパーティションの「一般化可能性」のアイデアを得ようとしない限り、私は予測的DAの付加価値を完全に理解することはできません。ただし、この場合でも、クラスター分析は基本的に探索ツールであるため、この方法で計算されたクラスメンバーシップを使用してスコアリングルールをさらに導出することは、一見奇妙に思えます。 推奨事項、アイデア、または関連論文へのポインタはありますか?

1
TF-IDF対数での対数の使用について
読んでいた: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition しかし、なぜこの式がそのように構築されたのか、正確には理解できないようです。 私が理解していること: iDFは、各文書に用語Sが出現する頻度をある程度のレベルで測定する必要があり、用語が出現する頻度が高くなるにつれて値が減少します。 その観点から iDF(S)=# of Documents# of Documents containing SiDF(S)=# of Documents# of Documents containing S iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} さらに、用語の頻度は、次のように正しく記述できます。 tf(S,D)=# of Occurrences of S in document D# maximum number of occurrences for any string Q in document Dtf(S,D)=# …

3
「R」におけるグラフクラスタリングのアプローチと例
「r」のグラフクラスタリングを使用して、グラフ内のノードをグループ化/マージしようとしています。 ここに私の問題の驚くほどおもちゃのバリエーションがあります。 2つの「クラスター」があります。 クラスタを接続する「ブリッジ」があります これが候補ネットワークです。 接続距離「ホップカウント」を確認すると、次のマトリックスが得られます。 mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,2,2), c(2,1,1,1,1,1,1,1,2,2), c(1,1,1,2,2,2,1,1,1,1), c(1,1,2,3,3,2,2,1,1,1), c(1,1,2,3,3,2,2,1,1,1)) ここでの考え: 幸運なことに、またはおもちゃの単純さのために、マトリックスには明らかなパッチがありますが、これは(非常に大きい)マトリックスの場合には当てはまりません。ポイントと行の関係をランダム化した場合、それほどクリーンではありません。 間違っている可能性があります。タイプミスがある場合はお知らせください。 ここでのホップ数は、行iのポイントを列jのポイントに接続するための最短ホップ数です。セルフホップはまだホップなので、対角線はすべて1です。 したがって、このマトリックスでは、距離(ホップ数)が大きいほど数値が大きくなります。距離ではなく「接続性」を示す行列が必要な場合は、行列の各セルをその乗法的逆行列で置き換えるドット逆行列を実行できます。 質問: 私自身の方法を見つけるのを助けるために: それらを組み合わせることによりグラフ上のノードの数を減らすための用語は何ですか?それはクラスタリング、マージ、マンギングですか?私が使うべき言葉は何ですか? 実証済みのテクニックは何ですか?このトピックに関する教科書はありますか?あなたは論文やウェブサイトを指すことができますか? 今、私は最初にここを見てみました-それは素晴らしい「最初のチェック」スポットです。探していたものが見つかりませんでした。見逃した場合(ありそうもないことですが)、CVのトピックに関する1つまたは2つの回答済みの質問を教えていただけますか? 私が行くところに連れて行くには: ネットワーク上のノードを適切にクラスター化する「R」パッケージはありますか? これを行うためのサンプルコードを教えてもらえますか? 結果の削減されたネットワークをグラフィカルに表示する「R」パッケージはありますか? これを行うためのサンプルコードを教えてもらえますか? 前もって感謝します。

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

1
樹状図クラスタリングのコフェネティック相関について
樹状図クラスタリングのコンテキストを検討してください。元の非類似性を個人間の距離と呼びましょう。樹状図を作成した後、2人の個人間のコフェネティック非類似性を、これらの個人が属するクラスター間の距離として定義します。 一部の人々は、元の非類似性とコフェン的非類似性の間の相関(コフェン的相関と呼ばれる)は分類の「適合性指標」であると考えています。これは私にはまったく不可解に聞こえます。私の異論は、ピアソン相関の特定の選択に依存していませんが、元の非類似性とコフェン的非類似性の間のリンクは分類の適合性に関連している可能性があるという一般的な考えに依存しています。 私に同意しますか、それとも樹状図分類の適合性指標としてのコフェン的相関の使用を支持する議論を提示できますか?

2
点群データの円形パターンを検出する
私が取り組んでいるいくつかのボリューム再構成アルゴリズムでは、(LIDARデバイスからの)3Dポイントデータで任意の数の円形パターンを検出する必要があります。パターンは空間で任意に方向付けることができ、(完全ではありませんが)薄い2D平面にあると見なされます。これは、同じ平面に2つの円がある例です(ただし、これは3Dスペースであることを覚えておいてください)。 私は多くのアプローチを試みました..最も単純な(しかし、これまでのところ最もうまく機能している)方法は、最近傍グラフの互いに素な集合に基づいてクラスタリングすることです。これは、パターンが遠く離れている場合は十分に機能しますが、例のような円が実際に互いに近い場合は、それほど効果はありません。 K平均法を試してみましたが、うまくいきません。円形の点の配置は、これにはあまり適していないのではないかと思います。さらに、Kの値が事前にわからないという問題もあります。 最近傍グラフでのサイクルの検出に基づいて、より複雑なアプローチを試しましたが、得られた結果は、非常に脆弱であるか、計算コストがかかりました。 私は多くの関連トピック(ハフ変換など)についても読みましたが、この特定のコンテキストでは完全に適用されるようには見えません。どんなアイデアやインスピレーションもいただければ幸いです。

1
K-means:実際の状況での反復回数は?
私はデータマイニングやビッグデータの業界での経験がないので、いくつかの経験を共有してほしいと思います。 人々は実際に本当に大きなデータセットでk-means、PAM、CLARAなどを実行していますか?または、ランダムにサンプルをランダムに選択しますか?データセットのサンプルを取得するだけの場合、データセットが正常に分散されていなければ、結果は信頼できますか? これらのアルゴリズムを実行する実際の状況では、収束が発生するまでに通常何回の反復が必要かを知ることができますか?または、反復の数は常にデータサイズとともに増加しますか? 収束する前に反復アルゴリズムを終了するアプローチを開発しようと考えていますが、結果はまだ許容範囲なので、これを求めています。計算のコストと時間を節約できるように、反復数が1,000を超える場合は、試してみる価値があると思います。どう思いますか?

2
ブール特徴の小さなサンプルセットに対するPCAとスペクトルクラスタリングの違い
50サンプルのデータセットがあります。各サンプルは、11個の(相関している可能性がある)ブール機能で構成されています。これらのサンプルを2Dプロットで視覚化し、50個のサンプルの間にクラスター/グループがあるかどうかを調べたいと思います。 私は次の2つの方法を試しました。 (a)50x11マトリックスでPCAを実行し、最初の2つの主成分を選択します。データを2Dプロットに投影し、簡単なK平均法を実行してクラスターを特定します。 (b)50x50(コサイン)類似性行列を作成します。次元削減のためにスペクトルクラスタリングを実行し、その後再びK-meansを実行します。 直接PCAを実行することと、類似度行列の固有値を使用することの概念的な違いは何ですか?一方が他方よりも優れていますか? また、そのようなデータを2Dで視覚化するより良い方法はありますか?私のサンプルサイズは常に50に制限されており、機能セットは常に10から15の範囲にあるため、複数のアプローチをその場で試し、最適なアプローチを選択します。 関連質問: クラスタリングまたはPCAによるサンプルのグループ化

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
次元削減としてのクラスタリング
私はNick Pentreathの本「Machine learning with Spark」を読んでいます。224〜225ページで、著者は次元削減の形式としてK平均法を使用することについて説明しています。 この種の次元削減は見たことがありません。名前が付いているか、データの特定の形状に役立ちますか? アルゴリズムを説明した本を引用します。 kクラスターのK平均クラスタリングモデルを使用して高次元の特徴ベクトルをクラスター化するとします。結果は、k個のクラスター中心のセットです。 元のデータポイントのそれぞれを、これらの各クラスター中心からの距離で表すことができます。つまり、各クラスターの中心までのデータポイントの距離を計算できます。結果は、各データポイントのk距離のセットです。 これらのkの距離は、次元kの新しいベクトルを形成できます。これで、元のデータを、元のフィーチャの次元と比較して、より低い次元の新しいベクトルとして表すことができます。 著者はガウス距離を示唆している。 2次元データの2つのクラスターで、私は次のようにしています: K平均: ノルム2でアルゴリズムを適用する: ガウス距離でアルゴリズムを適用(dnorm(abs(z)を適用): 前の写真のRコード: set.seed(1) N1 = 1000 N2 = 500 z1 = rnorm(N1) + 1i * rnorm(N1) z2 = rnorm(N2, 2, 0.5) + 1i * rnorm(N2, 2, 2) z = c(z1, z2) cl = kmeans(cbind(Re(z), Im(z)), centers …


1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
調整されたランドインデックスと調整された相互情報量
クラスタリングのパフォーマンスを評価しようとしています。メトリックに関するスキスチ学習ドキュメントを読んでいました。ARIとAMIの違いがわかりません。彼らは2つの異なる方法で同じことをしているように私には思えます。 ドキュメントからの引用: グラウンドトゥルースクラスの割り当てlabels_trueと、同じサンプルlabels_predのクラスタリングアルゴリズムの割り当てに関する知識がある場合、調整されたRandインデックスは、順列を無視し、偶然に正規化して、2つの割り当ての類似性を測定する関数です。 対 グラウンドトゥルースクラスの割り当てlabels_trueと、同じサンプルlabels_predのクラスタリングアルゴリズムの割り当てに関する知識がある場合、相互情報は、順列を無視して2つの割り当ての一致を測定する関数です... AMIはより最近提案され、正規化されています。機会。 クラスタリング評価で両方を使用する必要がありますか、それとも冗長ですか?

2
ガウス分布のベイズ混合への確率変分推論の適用
この論文に続いて、確率的変分推論で混合ガウスモデルを実装しようとしています。 これはガウス混合のpgmです。 論文によると、確率的変分推論の完全なアルゴリズムは次のとおりです。 そして、私はそれをGMMにスケーリングする方法にまだ非常に混乱しています。 まず、ローカル変分パラメーターはあり、その他はすべてグローバルパラメーターであると考えました。私が間違っていたら訂正してください。ステップ6はどういう意味ですか?これを達成するにはどうすればよいですか?qzqzq_zas though Xi is replicated by N times これで私を助けてくれませんか?前もって感謝します!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.