統計とビッグデータ k-means

2

kmeansアンダーソンのアイリスデータセットでk平均アルゴリズムを実行するために、R の命令を使用していました。取得したいくつかのパラメーターについて質問があります。結果は次のとおりです。 Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 この場合、「クラスターの意味」とはどういう意味ですか？クラスタ内のすべてのオブジェクトの距離の平均ですか？また、私は最後の部分で： Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) その値は88.4％で、その解釈は何でしょうか？

12 r machine-learning clustering interpretation k-means

2

私のk-meansクラスタリングアルゴリズムが次元の呪いに苦しんでいることをどうやって知るのですか？

この質問のタイトルがすべてを物語っていると思います。

12 clustering k-means high-dimensional

4

k-meansに最適なkがない場合はありますか？

これは少なくとも数時間は私の心の中にありました。（平均余弦類似度メトリックを使用して）k平均アルゴリズムからの出力に最適なkを見つけようとしていたため、クラスターの数の関数として歪みをプロットすることになりました。私のデータセットは、600次元空間にある800個のドキュメントのコレクションです。私が理解していることから、この曲線のニーポイントまたはエルボーポイントを見つけると、少なくともデータを入れる必要があるクラスターの数がほぼわかります。下にグラフを載せます。赤い縦線が引かれた点は、最大二次導関数検定を使用して取得されました。これをすべて行った後、私はもっと単純なものに行き詰まりました。このグラフはデータセットについて何を教えてくれますか？クラスタリングする価値がないこと、ドキュメントの構造が不足していること、または非常に高いkを設定する必要があることを教えてくれますか？奇妙なことの1つは、kが低い場合でも、同様のドキュメントがクラスター化されているので、なぜこの曲線が得られるのかわかりません。何かご意見は？

11 machine-learning clustering k-means

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

巨大なバイナリデータセットをいくつかのカテゴリにクラスター化するには、どのアルゴリズムを使用する必要がありますか？

バイナリデータの大規模な（650K行* 62列）行列（0-1エントリのみ）があります。マトリックスはほとんどスパースです。約8％が満たされます。それを5つのグループにクラスター化したいと思います。たとえば、1から5までの名前が付けられています。階層的クラスター化を試みましたが、サイズを処理できませんでした。長さ62の650Kビットベクトルを考慮して、ハミング距離ベースのK平均クラスタリングアルゴリズムも使用しました。これらのいずれでも適切な結果が得られませんでした。助けてください。

11 clustering dataset k-means binary-data

2

非常に歪んだカウントデータのクラスタリング：実行するための提案（変換など）？

基本的な問題これが私の基本的な問題です。非常にゆがんだ変数とカウントを含むデータセットをクラスター化しようとしています。変数には多くのゼロが含まれているため、私のクラスタリング手順（K平均アルゴリズムの可能性が高い）ではあまり情報がありません。細かいことは、平方根、ボックスコックス、または対数を使用して変数を変換するだけです。しかし、私の変数はカテゴリー変数に基づいているので、（カテゴリー変数の1つの値に基づいて）変数を処理し、他の変数（カテゴリー変数の他の値に基づいて）をそのままにして、バイアスを導入するのではないかと心配しています。。もう少し詳しく見ていきましょう。データセット私のデータセットはアイテムの購入を表します。アイテムには、たとえば色：青、赤、緑など、さまざまなカテゴリがあります。購入は、たとえば顧客ごとにグループ化されます。これらの各顧客は、データセットの1行で表されるため、顧客に対する購入を何らかの方法で集計する必要があります。私がこれを行う方法は、アイテムが特定の色である購入の数を数えることです。だからではなく、単一の変数のcolor、私は三つの変数で終わるcount_red、count_blueとcount_green。以下に例を示します。 ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 | …

11 clustering data-transformation k-means count-data compositional-data

3

K平均クラスタリングを初期化する方法

K-meansの初期シード（クラスターセンター）を選択するための最新の技術に興味があります。グーグルは2つの一般的な選択肢につながります。初期シードのランダム選択、および KMeans ++選択手法の使用：Arthur＆Vassilvitskii 2006 k-means ++：注意深いシードの利点ここで誰もが知っている他の有望な方法はありますか？

10 clustering k-means

3

コサイン類似度とユークリッド距離（LSA）のK平均

潜在的意味解析を使用して、低次元空間でドキュメントのコーパスを表現しています。これらのドキュメントをk-meansを使用して2つのグループにクラスター化したいと思います。数年前、私はPythonのgensimを使用してこれを行い、独自のk-meansアルゴリズムを作成しました。ユークリッド距離を使用してクラスターの重心を決定しましたが、重心とのコサイン類似性に基づいて各ドキュメントをクラスター化しました。かなりうまくいったようです。今、私はこれをはるかに大きなドキュメントのコーパスで実行しようとしています。K-meansは収束しておらず、コードのバグかどうか疑問に思っています。最近読んだのは、コサイン類似度を使用してクラスター化しないことです。k平均はユークリッド距離でのみ機能するためです。私が述べたように、それでも私の小さなテストケースではうまく機能するように見えました。 LSA Wikipediaページでこれに遭遇しました：ドキュメントと用語ベクトル表現は、コサインのような類似性測定を使用するk-meansのような従来のクラスタリングアルゴリズムを使用してクラスター化できます。どっち？コサイン類似度を使用できますか？

10 k-means svd lsa cosine-distance cosine-similarity

3

k-meansクラスターへのクラスラベルの割り当て

クラスタリングに関して非常に基本的な質問があります。重心を含むk個のクラスターを見つけた後、クラスター化したデータポイントのクラスを解釈するにはどうすればよいですか（各クラスターに意味のあるクラスラベルを割り当てます）。見つかったクラスターの検証については話していません。ラベル付きのデータポイントの小さなセットが与えられて、これらのラベル付きポイントが属するクラスターを計算し、各クラスターが受け取るポイントのタイプと数に基づいてラベルを決定できますか？これはかなり明白なようですが、この方法でクラスターにラベルを割り当てることがどの程度標準的かはわかりません。明確にするために、最初にクラスターを見つけるためにラベルを使用しない教師なしクラスタリングを実行したいと思います。次に、クラスターを見つけたので、いくつかのサンプルデータポイントのプロパティに基づいて、クラスターに意味のあるクラスラベルを割り当てます。

10 k-means

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

K-means：実際の状況での反復回数は？

私はデータマイニングやビッグデータの業界での経験がないので、いくつかの経験を共有してほしいと思います。人々は実際に本当に大きなデータセットでk-means、PAM、CLARAなどを実行していますか？または、ランダムにサンプルをランダムに選択しますか？データセットのサンプルを取得するだけの場合、データセットが正常に分散されていなければ、結果は信頼できますか？これらのアルゴリズムを実行する実際の状況では、収束が発生するまでに通常何回の反復が必要かを知ることができますか？または、反復の数は常にデータサイズとともに増加しますか？収束する前に反復アルゴリズムを終了するアプローチを開発しようと考えていますが、結果はまだ許容範囲なので、これを求めています。計算のコストと時間を節約できるように、反復数が1,000を超える場合は、試してみる価値があると思います。どう思いますか？

10 clustering data-mining k-means convergence large-data

3

k-medoidアルゴリズムの出力がk-meansアルゴリズムの出力と異なる例

k medoidとkの平均の違いを理解しています。しかし、k medoid出力がk平均出力とは異なる小さなデータセットの例を教えていただけますか。

10 k-means k-medoids

2

ブール特徴の小さなサンプルセットに対するPCAとスペクトルクラスタリングの違い

50サンプルのデータセットがあります。各サンプルは、11個の（相関している可能性がある）ブール機能で構成されています。これらのサンプルを2Dプロットで視覚化し、50個のサンプルの間にクラスター/グループがあるかどうかを調べたいと思います。私は次の2つの方法を試しました。（a）50x11マトリックスでPCAを実行し、最初の2つの主成分を選択します。データを2Dプロットに投影し、簡単なK平均法を実行してクラスターを特定します。（b）50x50（コサイン）類似性行列を作成します。次元削減のためにスペクトルクラスタリングを実行し、その後再びK-meansを実行します。直接PCAを実行することと、類似度行列の固有値を使用することの概念的な違いは何ですか？一方が他方よりも優れていますか？また、そのようなデータを2Dで視覚化するより良い方法はありますか？私のサンプルサイズは常に50に制限されており、機能セットは常に10から15の範囲にあるため、複数のアプローチをその場で試し、最適なアプローチを選択します。関連質問：クラスタリングまたはPCAによるサンプルのグループ化

10 clustering data-visualization pca k-means spectral-analysis

1

ガウス混合の成分の最適数

したがって、k平均法でクラスターの最適な数の「アイデア」を取得することは十分に文書化されています。ガウス混合でこれを行うことに関する記事を見つけましたが、私がそれを確信していると確信していないので、よく理解していません。これを行う...より穏やかな方法はありますか？

10 classification k-means mixture unsupervised-learning

3

次元削減としてのクラスタリング

私はNick Pentreathの本「Machine learning with Spark」を読んでいます。224〜225ページで、著者は次元削減の形式としてK平均法を使用することについて説明しています。この種の次元削減は見たことがありません。名前が付いているか、データの特定の形状に役立ちますか？アルゴリズムを説明した本を引用します。 kクラスターのK平均クラスタリングモデルを使用して高次元の特徴ベクトルをクラスター化するとします。結果は、k個のクラスター中心のセットです。元のデータポイントのそれぞれを、これらの各クラスター中心からの距離で表すことができます。つまり、各クラスターの中心までのデータポイントの距離を計算できます。結果は、各データポイントのk距離のセットです。これらのkの距離は、次元kの新しいベクトルを形成できます。これで、元のデータを、元のフィーチャの次元と比較して、より低い次元の新しいベクトルとして表すことができます。著者はガウス距離を示唆している。 2次元データの2つのクラスターで、私は次のようにしています： K平均：ノルム2でアルゴリズムを適用する：ガウス距離でアルゴリズムを適用（dnorm（abs（z）を適用）：前の写真のRコード： set.seed(1) N1 = 1000 N2 = 500 z1 = rnorm(N1) + 1i * rnorm(N1) z2 = rnorm(N2, 2, 0.5) + 1i * rnorm(N2, 2, 2) z = c(z1, z2) cl = kmeans(cbind(Re(z), Im(z)), centers …

10 clustering k-means dimensionality-reduction

タグ付けされた質問 「k-means」

タグ付けされた質問「k-means」