タグ付けされた質問 「k-means」

k-meansは、指定された数の平均k、stを見つけることによってデータをクラスターに分割する方法です。データが最も近い平均のw / iクラスターに割り当てられた場合、二乗のw / iクラスター合計は最小化されます。

2
Rでのk平均クラスタリングの結果の解釈
kmeansアンダーソンのアイリスデータセットでk平均アルゴリズムを実行するために、R の命令を使用していました。取得したいくつかのパラメーターについて質問があります。結果は次のとおりです。 Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 この場合、「クラスターの意味」とはどういう意味ですか?クラスタ内のすべてのオブジェクトの距離の平均ですか? また、私は最後の部分で: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) その値は88.4%で、その解釈は何でしょうか?


4
k-meansに最適なkがない場合はありますか?
これは少なくとも数時間は私の心の中にありました。(平均余弦類似度メトリックを使用して)k平均アルゴリズムからの出力に最適なkを見つけようとしていたため、クラスターの数の関数として歪みをプロットすることになりました。私のデータセットは、600次元空間にある800個のドキュメントのコレクションです。 私が理解していることから、この曲線のニーポイントまたはエルボーポイントを見つけると、少なくともデータを入れる必要があるクラスターの数がほぼわかります。下にグラフを載せます。赤い縦線が引かれた点は、最大二次導関数検定を使用して取得されました。これをすべて行った後、私はもっと単純なものに行き詰まりました。このグラフはデータセットについて何を教えてくれますか? クラスタリングする価値がないこと、ドキュメントの構造が不足していること、または非常に高いkを設定する必要があることを教えてくれますか?奇妙なことの1つは、kが低い場合でも、同様のドキュメントがクラスター化されているので、なぜこの曲線が得られるのかわかりません。何かご意見は?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
巨大なバイナリデータセットをいくつかのカテゴリにクラスター化するには、どのアルゴリズムを使用する必要がありますか?
バイナリデータの大規模な(650K行* 62列)行列(0-1エントリのみ)があります。マトリックスはほとんどスパースです。約8%が満たされます。 それを5つのグループにクラスター化したいと思います。たとえば、1から5までの名前が付けられています。階層的クラスター化を試みましたが、サイズを処理できませんでした。長さ62の650Kビットベクトルを考慮して、ハミング距離ベースのK平均クラスタリングアルゴリズムも使用しました。これらのいずれでも適切な結果が得られませんでした。 助けてください。

2
非常に歪んだカウントデータのクラスタリング:実行するための提案(変換など)?
基本的な問題 これが私の基本的な問題です。非常にゆがんだ変数とカウントを含むデータセットをクラスター化しようとしています。変数には多くのゼロが含まれているため、私のクラスタリング手順(K平均アルゴリズムの可能性が高い)ではあまり情報がありません。 細かいことは、平方根、ボックスコックス、または対数を使用して変数を変換するだけです。しかし、私の変数はカテゴリー変数に基づいているので、(カテゴリー変数の1つの値に基づいて)変数を処理し、他の変数(カテゴリー変数の他の値に基づいて)をそのままにして、バイアスを導入するのではないかと心配しています。 。 もう少し詳しく見ていきましょう。 データセット 私のデータセットはアイテムの購入を表します。アイテムには、たとえば色:青、赤、緑など、さまざまなカテゴリがあります。購入は、たとえば顧客ごとにグループ化されます。これらの各顧客は、データセットの1行で表されるため、顧客に対する購入を何らかの方法で集計する必要があります。 私がこれを行う方法は、アイテムが特定の色である購入の数を数えることです。だからではなく、単一の変数のcolor、私は三つの変数で終わるcount_red、count_blueとcount_green。 以下に例を示します。 ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 | …

3
K平均クラスタリングを初期化する方法
K-meansの初期シード(クラスターセンター)を選択するための最新の技術に興味があります。 グーグルは2つの一般的な選択肢につながります。 初期シードのランダム選択、および KMeans ++選択手法の使用:Arthur&Vassilvitskii 2006 k-means ++:注意深いシードの利点 ここで誰もが知っている他の有望な方法はありますか?

3
コサイン類似度とユークリッド距離(LSA)のK平均
潜在的意味解析を使用して、低次元空間でドキュメントのコーパスを表現しています。これらのドキュメントをk-meansを使用して2つのグループにクラスター化したいと思います。 数年前、私はPythonのgensimを使用してこれを行い、独自のk-meansアルゴリズムを作成しました。ユークリッド距離を使用してクラスターの重心を決定しましたが、重心とのコサイン類似性に基づいて各ドキュメントをクラスター化しました。かなりうまくいったようです。 今、私はこれをはるかに大きなドキュメントのコーパスで実行しようとしています。K-meansは収束しておらず、コードのバグかどうか疑問に思っています。最近読んだのは、コサイン類似度を使用してクラスター化しないことです。k平均はユークリッド距離でのみ機能するためです。私が述べたように、それでも私の小さなテストケースではうまく機能するように見えました。 LSA Wikipediaページでこれに遭遇しました: ドキュメントと用語ベクトル表現は、コサインのような類似性測定を使用するk-meansのような従来のクラスタリングアルゴリズムを使用してクラスター化できます。 どっち?コサイン類似度を使用できますか?

3
k-meansクラスターへのクラスラベルの割り当て
クラスタリングに関して非常に基本的な質問があります。重心を含むk個のクラスターを見つけた後、クラスター化したデータポイントのクラスを解釈するにはどうすればよいですか(各クラスターに意味のあるクラスラベルを割り当てます)。見つかったクラスターの検証については話していません。 ラベル付きのデータポイントの小さなセットが与えられて、これらのラベル付きポイントが属するクラスターを計算し、各クラスターが受け取るポイントのタイプと数に基づいてラベルを決定できますか?これはかなり明白なようですが、この方法でクラスターにラベルを割り当てることがどの程度標準的かはわかりません。 明確にするために、最初にクラスターを見つけるためにラベルを使用しない教師なしクラスタリングを実行したいと思います。次に、クラスターを見つけたので、いくつかのサンプルデータポイントのプロパティに基づいて、クラスターに意味のあるクラスラベルを割り当てます。
10 k-means 

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
K-means:実際の状況での反復回数は?
私はデータマイニングやビッグデータの業界での経験がないので、いくつかの経験を共有してほしいと思います。 人々は実際に本当に大きなデータセットでk-means、PAM、CLARAなどを実行していますか?または、ランダムにサンプルをランダムに選択しますか?データセットのサンプルを取得するだけの場合、データセットが正常に分散されていなければ、結果は信頼できますか? これらのアルゴリズムを実行する実際の状況では、収束が発生するまでに通常何回の反復が必要かを知ることができますか?または、反復の数は常にデータサイズとともに増加しますか? 収束する前に反復アルゴリズムを終了するアプローチを開発しようと考えていますが、結果はまだ許容範囲なので、これを求めています。計算のコストと時間を節約できるように、反復数が1,000を超える場合は、試してみる価値があると思います。どう思いますか?


2
ブール特徴の小さなサンプルセットに対するPCAとスペクトルクラスタリングの違い
50サンプルのデータセットがあります。各サンプルは、11個の(相関している可能性がある)ブール機能で構成されています。これらのサンプルを2Dプロットで視覚化し、50個のサンプルの間にクラスター/グループがあるかどうかを調べたいと思います。 私は次の2つの方法を試しました。 (a)50x11マトリックスでPCAを実行し、最初の2つの主成分を選択します。データを2Dプロットに投影し、簡単なK平均法を実行してクラスターを特定します。 (b)50x50(コサイン)類似性行列を作成します。次元削減のためにスペクトルクラスタリングを実行し、その後再びK-meansを実行します。 直接PCAを実行することと、類似度行列の固有値を使用することの概念的な違いは何ですか?一方が他方よりも優れていますか? また、そのようなデータを2Dで視覚化するより良い方法はありますか?私のサンプルサイズは常に50に制限されており、機能セットは常に10から15の範囲にあるため、複数のアプローチをその場で試し、最適なアプローチを選択します。 関連質問: クラスタリングまたはPCAによるサンプルのグループ化

1
ガウス混合の成分の最適数
したがって、k平均法でクラスターの最適な数の「アイデア」を取得することは十分に文書化されています。ガウス混合でこれを行うことに関する記事を見つけましたが、私がそれを確信していると確信していないので、よく理解していません。これを行う...より穏やかな方法はありますか?

3
次元削減としてのクラスタリング
私はNick Pentreathの本「Machine learning with Spark」を読んでいます。224〜225ページで、著者は次元削減の形式としてK平均法を使用することについて説明しています。 この種の次元削減は見たことがありません。名前が付いているか、データの特定の形状に役立ちますか? アルゴリズムを説明した本を引用します。 kクラスターのK平均クラスタリングモデルを使用して高次元の特徴ベクトルをクラスター化するとします。結果は、k個のクラスター中心のセットです。 元のデータポイントのそれぞれを、これらの各クラスター中心からの距離で表すことができます。つまり、各クラスターの中心までのデータポイントの距離を計算できます。結果は、各データポイントのk距離のセットです。 これらのkの距離は、次元kの新しいベクトルを形成できます。これで、元のデータを、元のフィーチャの次元と比較して、より低い次元の新しいベクトルとして表すことができます。 著者はガウス距離を示唆している。 2次元データの2つのクラスターで、私は次のようにしています: K平均: ノルム2でアルゴリズムを適用する: ガウス距離でアルゴリズムを適用(dnorm(abs(z)を適用): 前の写真のRコード: set.seed(1) N1 = 1000 N2 = 500 z1 = rnorm(N1) + 1i * rnorm(N1) z2 = rnorm(N2, 2, 0.5) + 1i * rnorm(N2, 2, 2) z = c(z1, z2) cl = kmeans(cbind(Re(z), Im(z)), centers …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.