タグ付けされた質問 「k-means」

k-meansは、指定された数の平均k、stを見つけることによってデータをクラスターに分割する方法です。データが最も近い平均のw / iクラスターに割り当てられた場合、二乗のw / iクラスター合計は最小化されます。

3
k-means vs k-means ++
私の知る限り、k-meansは初期の中心をランダムに選択します。彼らは純粋な運に基づいているので、それらは本当にひどく選択される可能性があります。K-means ++アルゴリズムは、初期中心を均等に広げることによって、この問題を解決しようとします。 2つのアルゴリズムは同じ結果を保証しますか?または、適切に選択されていない初期重心が、反復回数に関係なく、悪い結果をもたらす可能性があります。 与えられたデータセットと与えられた数の望ましいクラスターがあるとしましょう。収束する限り(中心が移動しない限り)、k平均アルゴリズムを実行します。このクラスターの問題(SSEが与えられている)に対する正確な解決策はありますか、またはk平均は再実行時に時々異なる結果を生成しますか? クラスタリングの問題に対する解決策が複数ある場合(与えられたデータセット、特定の数のクラスター)、K-means ++はより良い結果を保証しますか?より良い意味で私は低いSSEを意味します。 私がこれらの質問をしているのは、巨大なデータセットをクラスタリングするためのk-meansアルゴリズムを探しているからです。私はいくつかのk-means ++を見つけましたが、いくつかのCUDA実装もあります。ご存知のように、CUDAはGPUを使用しており、何百ものスレッドを並列に実行できます。(つまり、プロセス全体を本当にスピードアップできます)。しかし、これまでに見つけたCUDA実装には、k-means ++初期化がありません。
10 k-means 

2
アイスクリームの販売と温度のこのPCAプロットを理解する
温度とアイスクリームの売上のダミーデータを取得し、K平均(nクラスター= 2)を使用して分類して、2つのカテゴリ(完全にダミー)を区別しています。 今、私はこのデータの主成分分析を行っています。私の目標は、私が見ているものを理解することです。PCAの目的は、次元数を減らし(この場合は明らかにしない)、要素の分散を示すことであることを知っています。しかし、以下のPCAプロットをどのように読みますか。つまり、PCAプロットの温度とアイスクリームについてどのような話をすることができますか?1台目(X)と2台目(Y)のPCはどういう意味ですか?

1
scikit Learnの慣性公式のクラスタリング
パンダとscikit学習を使用して、Pythonでkmeansクラスタリングをコーディングしたいと思います。良いkを選択するために、Tibshirani and al 2001(pdf)からのギャップ統計をコード化したいと思います。 すべての距離計算を再コーディングする必要なしに、scikitの惰性結果を使用してギャップ統計式を適応できるかどうか知りたいのですが。 高レベル距離関数を使用してギャップ統計を再コーディングする簡単な方法をscikitで使用されている慣性公式を知っている人はいますか?

1
GPSベースのレポートから未知の数の実世界の場所を特定する
いくつかのGPSベースのレポートから実際の位置(feスピードカム)を特定するソフトウェアの開発に取り組んでいます。場所を報告するとき、ユーザーは運転しているので、報告は非常に不正確です。その問題を解決するには、同じ場所に関するレポートをクラスター化し、平均を計算する必要があります。 私の質問は、これらのレポートをクラスター化する方法についてです。期待値最大化アルゴリズムとk平均クラスタリングについて読みましたが、理解したとおり、実際の位置の数を事前に決定する必要があります。 実際の場所の正確な数を必要とせず、代わりにいくつかのエッジ条件を使用する他のアルゴリズムはありますか? レポートには、経度、緯度、および精度(メートル単位)が含まれています。重複を識別するために使用できる名前などはありません。 別の障害は、それが一般的であり、実際の場所のレポートが1つしかないことです。そのため、外れ値と適切なデータを区別するのが難しくなっています。

3
k-meansのクラスターの選択:1クラスターの場合
kmeansを使用したクラスタリングが適切かどうかを判断するための良い方法を知っている人はいますか?つまり、サンプルが実際に均質である場合はどうなりますか?(Rのmclustを介した)混合モデルのようなものが1:kクラスターの場合の適合統計を提供することを知っていますが、kmeansを評価するすべての手法には少なくとも2つのクラスターが必要であるようです。 kmeansの1と2のクラスターケースを比較する手法を知っている人はいますか?
9 r  clustering  k-means 

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
k-meansアルゴリズムでの循環
wikiによると、最も広く使用されている収束基準は「割り当ては変更されていません」です。このような収束基準を使用すると、サイクリングが発生するのではないかと思いました。サイクリングの例を挙げている記事や、これが不可能であることを証明する記事への参照を誰かが指摘してくれたら嬉しいです。

2
BICクラスタリング基準の計算(K平均後のクラスターを検証するため)
Rのk平均値出力について、BIC式に基づいてクラスタリング基準を計算する良い方法があるかどうか疑問に思っていますか?他のクラスタリングモデルと比較できるように、そのBICを計算する方法について少し混乱しています。現在、k-meansのstatsパッケージ実装を使用しています。
9 r  clustering  k-means  bic 

1
クラスター数を決定するためのエルボ基準
言及され、ここでデータ・セット内のクラスターの最適数を決定するための方法の一つは、「肘方法」であること。ここで、分散のパーセンテージは、グループ全体の分散に対するグループ間の分散の比率として計算されます。 この計算を理解するのは難しいと感じました。機能マトリックスとして表されたデータセットの分散の割合を計算する方法を説明できますかF∈Rm×nF∈Rm×nF \in \mathbf{R}^{m \times n}、 どこ mmm フィーチャーディメンションであり、 nnnデータポイントの数です。クラスタリングにはk-meansアルゴリズムを使用しています。

2
k-meansは非正規分布データに使用できますか?
アイリスデータセットのように通常は分散されない多くのデータセットを使用してk平均法をテストする多くの論文を読み、良い結果を得ました。k平均法は正規分布データ用であると理解しているので、なぜ非正規分布データ用にk平均法が使用されているのですか? たとえば、以下の論文では、正規分布曲線に基づいてk平均から重心を修正し、正規分布されていない虹彩データセットを使用してアルゴリズムをテストしました。 ほとんどすべてのインライア(正確には99.73%)は、母平均から3標準偏差(𝜎)以内の点から重心までの距離を持ちます。 ここで理解できないことはありますか? Olukanmi&Twala(2017)。K-means-sharp:外れ値にロバストなk-meansクラスタリングのための変更されたセントロイド更新 アイリスデータセット

1
数字認識ツールとしてのSVMの利点
私は数字認識に非常に慣れていないので、多くのチュートリアルがSVM分類を使用していることに気づきました。たとえば、 http://hanzratech.in/2015/02/24/handwritten-digit-recognition-using-opencv-sklearn-and-python.html http://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html たとえば、ツールと比較して、そのツールに(ドメイン固有の)利点があるかどうかを知りたい ディープラーニングニューラルネットワーク k-meansに基づく分類 コメントありがとうございます。また、SVMが数字を認識するための間違ったツールである理由も明確化されます。

1
共分散のガウスの混合物のためのEMアルゴリズムの限界ケースとしてK-手段に行く
私の目標は、K平均アルゴリズムが実際にガウス混合の期待値最大化アルゴリズムであり、すべての成分がの範囲の共分散を確認することです。σ2Iσ2I\sigma^2 Ilimσ→0limσ→0\lim_{\sigma \to 0} 確率変数Xの観測のデータセット{x1,…,xN}{x1,…,xN}\{x_1, \dots ,x_N\}があるとします。 M平均の目的関数は、 J = \ sum_ {n = 1} ^ {N} \ sum_ {k = 1} ^ {K} r_ {nk} || x_n-\ mu_k || ^ 2 で与えられます。r_ {nk}は、クラスターkへのx_nのハード割り当てのバイナリインジケーター変数です。 (データポイントx_nがクラスターkに割り当てられている場合、j \ ne kに対してr_ {nk} = 1およびr_ {nj} = 0)。 K平均アルゴリズムは、収束するまで反復によってJを最小化します。これには、2つの連続するステップが含まれます。 (E)最小化XXXJ=∑n=1N∑k=1Krnk||xn−μk||2J=∑n=1N∑k=1Krnk||xn−μk||2J = \sum_{n=1}^{N}\sum_{k=1}^{K} r_{nk} ||x_n …

3
k-meansと他の指標の併用
したがって、これは以前に尋ねられたことに気づきます。たとえば、さまざまな距離メトリックのクラスター分析に関連するユースケースは何ですか?しかし、私は文献で提案されているものとは多少矛盾する答えが可能であることを発見しました。 最近、他のメトリックでkmeansアルゴリズムを使用することについて言及している2つの論文を読んだことがあります。たとえば、文字列間の距離の編集や、分布間の「地球の移動距離」などです。これらの論文は、特にポイントのセットの平均を計算する場合、方法を指定せずに他のメトリックでkmeansを使用することについて言及していることを考えると、おそらく私が選択していない、これに対処するためのいくつかの「標準」方法があることを示唆しています上に。 たとえば、k-meansアルゴリズムをより高速に実装できるこのペーパーを見てください。イントロのパラグラフ4からの引用では、著者は彼のアルゴリズムを「任意のブラックボックス距離メトリックで使用できる」と述べ、次のパラグラフでは具体的な例として編集距離に言及しています。しかし、彼のアルゴリズムは一連の点の平均を計算し、これが他のメトリックスの結果にどのように影響するかについては言及していません(平均が編集距離でどのように機能するかについては特に困惑しています)。 この他のペーパーでは、テキサスホールデム抽象化のためにk-meansを使用してポーカーハンドをクラスター化する方法について説明します。左の列の下部のページ2にジャンプする場合、著者は「そして、k-meansを使用して、ヒストグラムの各ペア間のEarth Mover Distanceを距離メトリックとして使用して、目的のクラスター数で抽象化を計算します。 私はこれらの論文を説明してくれる人を本当に探しているわけではありませんが、他の測定基準でk-meansを使用するための標準的な方法がありませんか?アースムーバーの距離を使用した標準的な平均化はヒューリスティックに機能するように見えますが、編集距離は金型にまったく適合しないようです。私は誰かが与えることができるどんな洞察にも感謝します。 (編集):私は先に進み、アースムーバーの距離(ポーカーペーパーにあるものと同様)を使用して分布ヒストグラムでk平均法を試してみましたが、うまく機能しているようで、出力したクラスターは私のユースケースにかなり適しているように見えました。平均化では、ヒストグラムをベクトルとして扱い、通常の方法で平均化しました。私が気づいたことの1つは、平均までの距離のすべてのポイントの合計が常に単調に減少するとは限らないことです。しかし実際には、単調な問題にもかかわらず、10回以内の反復でローカルの最小値に収まります。これは彼らが2番目の論文で行ったものであると仮定します。残っている唯一の問題は、編集距離のようなものを使用する場合、一体どのように平均するのでしょうか。

4
K平均法によって引き起こされる可能性のあるクラスタリング
次の質問を私の試験のテスト問題として取得しましたが、答えを理解できません。 最初の2つの主成分に投影されたデータの散布図を以下に示します。データセットにグループ構造が存在するかどうかを調べます。これを行うには、ユークリッド距離測定を使用してk = 2でk平均アルゴリズムを実行しました。k-meansアルゴリズムの結果は、ランダムな初期条件に応じて、実行間で異なる可能性があります。アルゴリズムを数回実行して、いくつかの異なるクラスタリング結果を得ました。 データに対してk-meansアルゴリズムを実行すると、表示されている4つのクラスタリングのうち3つしか取得できません。k-meansで取得できないものはどれですか?(データについて特別なことは何もありません) 正解はDです。誰かが理由を説明できますか?

2
(K-平均)クラスタリング手法で平均値のみが使用されるのはなぜですか?
K-meansなどのクラスタリング手法では、ユークリッド距離が使用するメトリックです。結果として、各クラスター内の平均値のみを計算します。そして、各平均値までの距離に基づいて要素が調整されます。 ガウス関数がメトリックとして使用されないのはなぜですか?を使用する代わりにxi -mean(X)、を使用できますexp(- (xi - mean(X)).^2/std(X).^2)。したがって、クラスター間の類似性が測定されるだけでなく(平均)、クラスター内の類似性も考慮されます(標準)。これもガウス混合モデルと同等ですか? ここでは私の質問を超えていますが、平均シフトは上記と同じ質問が発生する可能性があると思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.