タグ付けされた質問 「k-means」

k-meansは、指定された数の平均k、stを見つけることによってデータをクラスターに分割する方法です。データが最も近い平均のw / iクラスターに割り当てられた場合、二乗のw / iクラスター合計は最小化されます。

1
標準および球面k-meansアルゴリズムの違い
標準と球状のk-meansクラスタリングアルゴリズムの主要な実装の違いは何かを理解したいと思います。 各ステップで、k-meansは要素ベクトルとクラスター重心間の距離を計算し、重心が最も近いクラスターにドキュメントを再割り当てします。次に、すべての重心が再計算されます。 球面k-meansでは、すべてのベクトルが正規化され、距離測定は余弦の非類似度です。 それだけですか、それとも何かありますか?

2
クラスタリングでバイナリ変数と連続変数の両方を一緒に使用する方法は?
k-meansでバイナリ変数(値0および1)を使用する必要があります。ただし、k-meansは連続変数でのみ機能します。一部の人々は、k-meansが連続変数に対してのみ設計されているという事実を無視して、k-meansでこれらのバイナリ変数をまだ使用していることを知っています。これは私には受け入れられません。 質問: それでは、k-means /階層的クラスタリングでバイナリ変数を使用する統計的/数学的に正しい方法は何ですか? SAS / Rでソリューションを実装する方法は?

5
各クラスターのポイント数が等しいクラスタリング手順?
にいくつかのポイントがあり、ポイントをクラスター化して次のようにします。X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 各クラスターには、等しい数のの要素が含まれます。(クラスターの数が分割すると仮定します。)XXXnnn 各クラスターは、平均のクラスターのように、ある意味で「空間的に凝集」しています。kkk これらのいずれかを満たす多くのクラスタリング手順を考えるのは簡単ですが、誰もが両方を一度に取得する方法を知っていますか?

3
データベースから1Dデータの異なるクラスターを決定する
異なるノード間のデータ転送のデータベーステーブルがあります。これは巨大なデータベースです(約4,000万回の転送)。属性の1つは、0バイトから2テラバイトの範囲のバイト数(nbytes)転送です。n個のクラスターを、k個のクラスターの一部のx1転送がk1クラスターに属し、x2トランスファーがk2に属するようにクラスター化したいと思います。 私が使用した用語から、あなたは私が何をしようとしていたかを推測したかもしれません:K-means。nbytesが私が気にする唯一の機能なので、これは1dデータです。これとは異なる方法を探していたとき、EMが非クラスタリングアプローチとともに数回言及されているのを見ました。この問題にアプローチする方法についてのあなたの見解を知りたい(具体的にはクラスター化するかしないか)。 ありがとう!

8
特徴点ごとのデータではなく、距離行列のみを使用してK平均(またはその近縁)クラスタリングを実行します。
所有しているオブジェクトに対してK-meansクラスタリングを実行したいのですが、オブジェクトは空間内のポイント、つまりobjects x featuresデータセットによって記述されていません。ただし、2つのオブジェクト間の距離は計算できます(類似度関数に基づいています)。そのため、距離行列を破棄しobjects x objectsます。 私は以前にK-meansを実装しましたが、それはポイントデータセットの入力でした。距離行列の入力では、ポイント表現なしでクラスタを「中心」に更新する方法が明確ではありません。これは通常どのように行われますか?そのために、それに近いK-meansまたはメソッドのバージョンはありますか?

2
k-meansクラスタリングが混合ガウスモデリングの形式である場合、データが正常でない場合に使用できますか?
GMMのEMアルゴリズムと、GMMとk-meansの関係についてBishopを読んでいます。 この本では、k-meansはGMMのハードアサインバージョンです。私は、クラスター化しようとしているデータがガウスではない場合、k-meansを使用できない(または少なくとも使用に適していない)ことを意味しているのだろうか?たとえば、データがそれぞれ値0または1の8 * 8ピクセルで構成される手書き数字の画像である場合(そしてそれらが独立していると仮定して、ベルヌーイの混合物である必要がある場合)? 私はこれについて少し混乱していますが、どんな考えでも感謝します。

4
相関行列のクラスタリング
すべてのアイテムが他のアイテムとどのように相関しているかを示す相関行列があります。したがって、N個のアイテムについては、すでにN * N相関行列があります。この相関行列を使用して、k番目のビンのNk個のアイテムが同じように動作すると言うことができるように、M個のビンのN個のアイテムをクラスター化する方法を教えてください。親切に私を助けてください。すべてのアイテム値はカテゴリです。 ありがとう。さらに情報が必要な場合はお知らせください。Pythonでの解決策が必要ですが、要件に向かって私を押し進める助けは大きな助けになります。

2
k-meansの収束の証明
割り当てについては、k-meansが有限のステップ数で収束するという証明を提供するように依頼されました。 これは私が書いたものです: CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) ステップ2は、最も近いクラスター中心で各データポイントにラベルを付けるステップを指します。ステップ3は、平均を取ることによってセンターが更新されるステップです。 これは、有限数のステップで収束を証明するには十分ではありません。エネルギーは小さくなり続ける可能性がありますが、エネルギーをあまり変えずに中心点が飛び回る可能性を排除しません。言い換えれば、複数のエネルギー最小値があり、アルゴリズムはそれらの間を飛び回ることができますか?

4
階層的クラスタリングの欠点を理解する方法は?
誰かが階層的クラスタリングの長所と短所を説明できますか? 階層的クラスタリングには、Kの意味と同じ欠点がありますか? 階層的クラスタリングのKを超える利点は何ですか? 階層的クラスタリングに対してKを使用する場合、およびその逆の場合はいつですか? この投稿への回答では、kの欠点が非常によく説明されています。 K-meansの欠点を理解する方法


3
明らかに2つあるにもかかわらず、k-meansのギャップ統計が1つのクラスターを示唆するのはなぜですか?
K-meansを使用してデータをクラスター化し、「最適な」クラスター番号を提案する方法を探していました。ギャップ統計は、適切なクラスター番号を見つける一般的な方法のようです。 何らかの理由で最適なクラスター番号として1を返しますが、データを見ると2つのクラスターがあることが明らかです。 これは私がRのギャップを呼び出す方法です: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) 結果セット: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 3.884438 -0.0395891064 0.1231152 [4,] 3.564816 3.563931 -0.0008853886 0.1387907 [5,] 3.356504 3.327964 -0.0285393917 …


5
なぜk-meansはグローバルな最小値を与えないのですか?
k-meansアルゴリズムは局所的な最小値にのみ収束し、グローバルな最小値には収束しないことを読みました。どうしてこれなの?初期化が最終的なクラスタリングにどのように影響するかを論理的に考えることができ、最適でないクラスタリングの可能性がありますが、数学的にそれを証明するものは見つかりませんでした。 また、なぜk-meansは反復プロセスなのですか?目的関数を重心に部分的に区別するだけでは、この関数を最小化する重心を見つけるためにそれをゼロに等しくすることはできませんか?段階的な最小ステップに到達するために勾配降下を使用する必要があるのはなぜですか?

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
次元の呪いは、一部のモデルに他のモデルよりも大きな影響を与えますか?
私が次元の呪いについて読んでいた場所は、主にkNNと線形モデル一般に関連してそれを説明します。Kaggleのトップランカーは、10万個のデータポイントをほとんど持たないデータセットで数千の機能を使用しています。主に、特にブーストツリーとNNを使用します。多くの機能が高すぎるように思われ、それらが次元の呪いの影響を受けると感じています。しかし、これらのモデルは競合他社を上回っているため、そうではないようです。それでは、元の質問に戻ります。一部のモデルは、他のモデルよりも次元の呪いの影響を受けますか? 具体的には、次のモデルに興味があります(これらが私が知っている/使用しているモデルだからです)。 線形およびロジスティック回帰 デシジョンツリー/ランダムフォレスト/ブーストツリー ニューラルネットワーク SVM kNN k-meansクラスタリング

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.