タグ付けされた質問 「k-means」

k-meansは、指定された数の平均k、stを見つけることによってデータをクラスターに分割する方法です。データが最も近い平均のw / iクラスターに割り当てられた場合、二乗のw / iクラスター合計は最小化されます。

2
k-means vs k-median?
k-meansクラスタリングアルゴリズムとk-medianがあることを知っています。1つはクラスターの中心として平均を使用し、もう1つは中央値を使用します。私の質問は次のとおりです。いつ、どこで使用しますか?

2
勾配降下を使用してk-meansが最適化されないのはなぜですか?
私が知っているK-手段が通常使用して最適化された期待値最大化を。ただし、他の最適化と同じ方法で損失関数を最適化できます! 大規模なk-meansに確率的勾配降下法を実際に使用している論文をいくつか見つけましたが、私の質問に答えることができませんでした。 だから、誰がそれがなぜだか知っていますか?期待値の最大化がより速く収束するためでしょうか?特別な保証はありますか?それとも歴史的な理由ですか?

3
他のアルゴリズムの代わりにk-meansを使用するのはなぜですか?
私はk-meansについて調査しましたが、これらは私が得たものです。k-meansは、教師なし学習法を使用して既知のクラスタリングの問題を解決する最も単純なアルゴリズムの1つです。大規模なデータセットで非常にうまく機能します。 ただし、K-Meansには次の欠点もあります。 外れ値とノイズに対する強い感度 非円形のクラスター形状ではうまく機能しません-クラスターの数と初期シード値を事前に指定する必要があります 局所最適を渡す低い能力。 欠点はk-meansの良いところを超えているように見えるので、k-meansには素晴らしいことはありますか。 教えて下さい。


3
k-meansクラスター分析後のANOVAの適切性
K平均分析後のANOVAテーブルの後の通知は、距離を最大化するためにクラスター解がユークリッド距離に基づいて導出されているため、有意水準を同等平均のテストと見なすべきではないことを示しています。クラスタリング変数の平均がクラスター間で異なるかどうかを示すために、どのテストを使用する必要がありますか?この警告はk-means出力の提供されたANOVAテーブルで見ましたが、いくつかの参考文献では、事後ANOVAテストが実行されていることがわかります。k-mean ANOVA出力を無視し、事後検定で一元配置ANOVAを実行し、従来の方法で解釈する必要がありますか?または、F値の大きさだけを暗示したり、どの変数が差に寄与したかを示すことはできますか?別の混乱は、クラスタリング変数がANOVAの仮定に違反して正規分布していないことです。Kruskal-Wallisノンパラメトリック検定を使用できますが、同じ分布に関する仮定があります。特定の変数のクラスター間分布は同じように見えず、一部は正に歪んでおり、一部は負になっています... 1275個の大きなサンプル、5つのクラスター、10個のクラスター変数がPCAスコアで測定されています。
14 anova  k-means 

2
見つかったクラスターの中心を取り、クラスターを新しいデータセットに割り当てるRの関数はありますか
多次元データセットには2つの部分がtrainありtestます。それらをおよびと呼びましょう。そして、列車のデータセットに基づいてモデルを構築し、テストデータセットで検証したいと思います。クラスターの数はわかっています。 Rにk-meansクラスタリングを適用しようとしましたが、クラスターの中心を含むオブジェクトが得られました。 kClust <- kmeans(train, centers=N, nstart=M) 見つかったクラスターの中心を取り、テストデータセットにクラスターを割り当てる関数がRにありますか? 私が試すことができる他の方法/アルゴリズムは何ですか?
14 r  clustering  k-means 


5
距離(ユークリッド)を類似度スコアに変換する方法
私はを使用してkkkクラスタリングを行い、話者の声をクラスタリングします。発話をクラスター化されたスピーカーデータと比較すると、(ユークリッド距離に基づく)平均歪みが得られます。この距離は、範囲になります[0,∞][0,∞][0,\infty]。私はこの距離を変換したい[0,1][0,1][0,1]類似性スコア。これを達成する方法を教えてください。

4
データセットのランダムサブサンプルを使用してK平均センターを初期化していますか?
特定のデータセットがある場合、そのデータセットのランダムサンプルを使用してクラスターセンターを初期化するのはどれくらい賢明でしょうか。 たとえば、が欲しいとし5 clustersます。私は取る5 random samples、と言うのsize=20%元のデータセットで。次に、これら5つのランダムサンプルのそれぞれの平均を取り、それらの平均を5つの初期クラスターセンターとして使用できますか?私はこれをどこで読んだのか分かりませんが、皆さんがアイデアについてどう思うか知りたいと思いました。 更新:このスレッドを参照してくださいK-meansクラスタリングの初期化:既存のメソッドは何ですか?さまざまな初期化方法についての一般的な議論。

2
BICを使用してKMEANSのkの数を推定する
現在、おもちゃのデータセット(ofc iris(:))のBICを計算しようとしています。ここに示すように結果を再現したいです(図5)。 これには2つの問題があります。 表記: n私n私n_i =クラスターの要素数私私i C私C私C_i =クラスター中心座標私私i バツjバツjx_j =クラスター iに割り当てられたデータポイント私私i mmm =クラスターの数 1)式で定義された分散 (2): ∑私= 1n私− m∑j = 1n私∥ Xj− C私∥2∑私=1n私−m∑j=1n私‖バツj−C私‖2 \sum_i = \frac{1}{n_i-m}\sum_{j=1}^{n_i}\Vert x_j - C_i \Vert^2 私が見る限り、クラスター内の要素よりもクラスターmmmが多い場合、分散が負になる可能性があることは問題であり、カバーされません。これは正しいです? 2)正しいBICを計算するためにコードを機能させることができません。うまくいけばエラーはありませんが、誰かが確認できれば幸いです。方程式全体は式で見つけることができます。(5)論文の中。私はscikit learnを使用して、すべてを(キーワード:Pを正当化するために)使用しています。 from sklearn import cluster from scipy.spatial import distance import sklearn.datasets from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt …


3
kmeansを実行する前に、相関/共線の変数を削除する必要がありますか?
顧客のクラスターを識別するためにkmeansを実行しています。クラスターを識別する変数は約100個あります。これらの各変数は、カテゴリに対する顧客の支出の割合を表します。そのため、100個のカテゴリがある場合、これらの変数の合計が各顧客に対して100%になるように、これらの100個の変数があります。現在、これらの変数は互いに強く相関しています。kmeansを実行する前に、これらのいくつかをドロップして共線性を除去する必要がありますか? サンプルデータは次のとおりです。実際には、100個の変数と1,000万人の顧客がいます。 Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

3
クラスタリング確率分布-メソッドとメトリック?
いくつかのデータポイントがあり、それぞれに5つのベクトルの凝集した離散結果が含まれ、各ベクトルの結果は異なる分布によって生成されます(特定の種類は定かではありませんが、私の最良の推測はワイブルで、形状パラメーターは指数関数の周りで変化します)法律(1〜0、大体)。) K-Meansなどのクラスタリングアルゴリズムを使用して、5つのコンポーネント分布の属性に基づいて各データポイントをグループに入れたいと考えています。これらの目的に適した確立された距離メトリックがあるかどうか疑問に思っていました。これまでに3つのアイデアがありましたが、私は経験豊富な統計学者ではありません(データマイニングコンピューター科学者の始まりです)。 私が扱っている分布の種類が正確にはわからないので、問題に対する私の総当たり的なアプローチは、各分布(1ポイントあたり5つ)をそれぞれの個別のデータ値に分割することでした(I padそれぞれが同じ長さに対応し、最後にゼロが付いています)、これらの各値をデータポイント自体の個別の属性として使用します。PDFとCDFの両方について、これらの属性に基づくメトリックとしてマンハッタン距離とユークリッド距離の両方を使用してみました。 繰り返しますが、どのような分布があるのか​​わからないので、全体の分布間の距離を測定する場合、KSテストなどの分布間でペアである種のノンパラメトリックテストを使用できると考えました、特定の分布が異なるPDFによって生成された可能性を見つけるため。マンハッタン距離を使用する最初のオプション(上記)は、このアプローチを使用して得られるものの一種の上限になると考えました(KS統計はCDFの差の最大絶対値であり、マンハッタン距離はPDFの差の絶対値の合計)。次に、おそらくユークリッド距離を使用して、各データポイント内で異なるKS統計値またはP値を結合することを検討しましたが、これらの値のすべての最大値を取得することもできます。 最後に、分布の形状についてほとんど解釈できないものを使用するために、ワイブル曲線に適合するように分布のパラメーターを推定しようと考えました。次に、ワイブル分布の2つのパラメーター、ラムダとk(スケールと形状)の違いに基づいて分布をクラスター化できます。おそらく、これらのパラメーターの分散またはある種のものに従って正規化されます。これは、パラメーターを正規化する方法のアイデアがあると思った唯一のケースです。 それで、私の質問は、分布のクラスタリングのためにどのような尺度/方法をお勧めしますか?私はこれらのどれでも正しい軌道に乗っていますか?K-Meansは使用するのに適したアルゴリズムでもありますか? 編集:データの明確化。 各データポイント(Objクラスター化する各オブジェクト)には5 vectors、実際には文字通りデータが含まれています。これらのオブジェクトが入ることができるフェーズは正確に5つあることを知っています。(単純化のために)各ベクトルはであると言いますlength N。 これらのベクターの各々は(それを呼び出すvector i)整数の確率分布であるx-values各対応するY値が測定される確率を表し、N、スルー1のvalue x中phase iのオブジェクトのをObj。Nは、オブジェクトの任意のフェーズで測定する予定の最大x値です(これは実際の分析では固定値ではありません)。 これらの確率は次の方法で決定します。 私はシングルを取り、各トライアルで測定を行うためObjにそれを入れました。各測定は単一の整数です。これは、単一オブジェクトの5つのフェーズのそれぞれに対して、そして各オブジェクトに対して順番に行います。単一のオブジェクトの生の測定データは次のようになります。phase ik trials ベクトル1. [90、42、30、9、3、4、0、1、0、0、1] ベクトル2。[150、16、5、0、1、0、0、0、0、0、0] ... ベクトル5. [16、... ...、0] 次に、与えられたベクトル内の測定の総数に関して、各ベクトルを独自に正規化します。これにより、そのベクトルの確率分布が得られます。対応する各y値は、で測定さvalue xれる確率を表しphase iます。

1
k-means || 別名スケーラブルなK-Means ++
バーマン・バーマニ他 k-means ||が導入されました。これはk-means ++の高速バージョンです。 このアルゴリズムは、彼らの論文の 4ページ、Bahmani、B.、Moseley、B.、Vattani、A.、Kumar、R.、およびVassilvitskii、S.(2012)から取られています。スケーラブルなk-means ++。VLDB基金の議事録、5(7)、622-633。 残念ながら、これらの派手なギリシャ文字は理解できないので、これがどのように機能するかを理解するのに助けが必要です。私が理解している限り、このアルゴリズムはk-means ++の改良バージョンであり、オーバーサンプリングを使用して反復回数を減らします。k-means++は回反復する必要があります(kは目的のクラスターの数です)。kkkkkk k-means ++がどのように機能するかの具体例を通して非常に良い説明を得たので、同じ例を再び使用します。 例 次のデータセットがあります。 (7,1)、(3,4)、(1,5)、(5,8)、(1,3)、(7,8)、(8,2)、(5,9)、(8 、0) (必要なクラスターの数)k=3k=3k = 3 (オーバーサンプリング係数)ℓ=2ℓ=2\ell = 2 私はそれを計算し始めましたが、私はそれが正しいかどうかわからず、ステップ2、4、または5については知りません。 ステップ1:Xからランダムに点を一様にサンプリングするC←C←\mathcal{C} \leftarrowXXX のは、最初の重心があるとしましょう(k平均++と同じ)(8,0)(8,0)(8,0) ステップ2:ψ←ϕX(C)ψ←ϕX(C)\psi \leftarrow \phi_X(\mathcal{C}) わからない ステップ3: d2(x,C)=[2,41,74,73,58,65,4,90]d2(x,C)=[2,41,74,73,58,65,4,90]d^2(x, \mathcal{C}) = [2, 41, 74, 73, 58, 65, 4, 90] 各ポイントに最も近い中心までの距離の2乗を計算します。このケースでは、これまでのところ唯一のセンターを持っている。(8,0)(8,0)(8,0) ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]\ell \cdot d^2(x, \mathcal{C}) = [4, 81, 148, …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.