統計とビッグデータ k-means

5

K-meansは、クラスター分析で広く使用されている方法です。私の理解では、この方法はいかなる仮定も必要とせず、すなわち、データセットと事前に指定されたクラスター数kを与え、二乗誤差の合計（SSE）を最小化するこのアルゴリズムを適用します。エラー。したがって、k-meansは本質的に最適化の問題です。 k-meansの欠点に関する資料を読みました。それらのほとんどはそれを言う： k-meansは、各属性（変数）の分布の分散が球形であると仮定します。すべての変数の分散は同じです。すべてのkクラスターの事前確率は同じです。つまり、各クラスターの観測数はほぼ同じです。これら3つの仮定のいずれかに違反した場合、k-meansは失敗します。この声明の背後にある論理を理解できませんでした。k-means法は本質的に仮定をしておらず、SSEを最小化するだけなので、SSEの最小化とこれらの3つの「仮定」の間のリンクはわかりません。

365 machine-learning clustering data-mining k-means

5

K平均とK最近傍の主な違いは何ですか？

k-meansは監視されておらず、クラスタリングなどに使用され、k-NNは監視されていることを知っています。しかし、私は2つの具体的な違いを知りたいですか？

86 machine-learning k-means k-nearest-neighbour

6

クラスタリングアルゴリズムが意味のある結果を生成するのに十分なデータが「クラスター化」されているかどうかを確認する方法

（高次元の）データが十分なクラスタリングを示しているので、kmeansまたは他のクラスタリングアルゴリズムの結果が実際に意味があるかどうかをどのように確認しますか？特にk-meansアルゴリズムの場合、実際のクラスタリング結果が意味のある（スプリアスではない）ために、クラスター内分散の減少はどれくらい必要ですか？次元的に縮小された形式のデータをプロットすると、クラスタリングが明らかになります。また、クラスタリングを視覚化できない場合、kmeans（または他の方法）の結果は意味がありませんか？

78 clustering k-means

6

t-SNEの出力のクラスタリング

ノイズの多いデータセットをクラスター化してからクラスター内のサブグループ効果を探すのに便利なアプリケーションがあります。私は最初にPCAを調べましたが、変動の90％に達するには約30のコンポーネントが必要なので、わずか数台のPCでクラスタリングを行うと多くの情報が失われます。次に、t-SNEを（初めて）試しました。これにより、2次元で奇妙な形が得られ、k-meansを介したクラスタリングに非常に適しています。さらに、結果としてクラスター割り当てを使用してデータでランダムフォレストを実行すると、生データを構成する変数の観点から、問題のコンテキストを考慮して、クラスターがかなり賢明な解釈を持つことがわかります。しかし、これらのクラスターについてレポートする場合、どのように説明しますか？主成分のK-meansクラスターは、データセットの分散のX％を構成する派生変数に関して、互いに近い個人を明らかにします。t-SNEクラスターについて、同等のステートメントを作成できますか？おそらく次の効果があります： t-SNEは、基礎となる高次元多様体の近似的な連続性を明らかにするため、高次元空間の低次元表現上のクラスターは、隣接する個人が同じクラスターに存在しない「尤度」を最大化します誰もがそれよりも良い宣伝文句を提案できますか？

78 clustering interpretation k-means tsne

3

k-meansクラスター分析の結果のきれいなプロットを作成する方法は？

Rを使用してK-meansクラスタリングを実行しています。14個の変数を使用してK-meansを実行しています K-meansの結果をプロットする美しい方法は何ですか？既存の実装はありますか？ 14個の変数があると、結果のプロットが複雑になりますか？ GGclusterと呼ばれるクールなものを見つけましたが、まだ開発中です。また、サモンマッピングについても読みましたが、あまり理解していませんでした。これは良い選択肢でしょうか？

77 data-visualization classification k-means unsupervised-learning

6

k-meansクラスタリングアルゴリズムがユークリッド距離メトリックのみを使用するのはなぜですか？

効率または機能性に関して、k-meansアルゴリズムがコサイン（dis）の類似性を距離メトリックとして使用せず、ユークリッドノルムのみを使用できる理由はありますか？一般に、ユークリッド以外の距離が考慮または使用される場合、K-means法は準拠し、正しいですか？ [@ttnphnsによる追加。質問は2つあります。「（非）ユークリッド距離」は、2つのデータポイント間の距離、またはデータポイントとクラスター中心間の距離に関係する場合があります。これまでのところ、両方の方法で回答を取り上げようとしました。]

62 clustering k-means distance-functions euclidean

5

k-meansクラスタリングとPCAの関係は何ですか？

クラスタリングアルゴリズム（k-meansなど）の前にPCA（主成分分析）を適用するのが一般的な方法です。これにより、実際のクラスタリング結果が改善されると考えられています（ノイズ低減）。しかし、PCAとk-meansの関係の比較と詳細な研究に興味があります。たとえば、Chris Ding and Xiaofeng He、2004、K-means Clustering by Principal Component Analysisは、「主成分がK-meansクラスタリングの離散クラスターメンバーシップインジケーターに対する連続的なソリューションである」ことを示しました。しかし、私はこの論文を理解するのに苦労しており、ウィキペディアは実際には間違っていると主張しています。また、2つの方法の結果は、PCAが分散を維持しながら「機能」の数を減らすのに役立つという意味でやや異なります。一方、クラスタリングは、期待値/手段によっていくつかの点を要約することで「データ点」の数を減らします（k-meansの場合）。したがって、データセットがそれぞれ特徴を持つポイントで構成される場合、PCAはT個の特徴を圧縮することを目的とし、クラスタリングはN個のデータポイントを圧縮することを目的とします。NNNTTTNTTTNNN 私は、これらの2つの手法の関係についての素人の説明と、2つの手法に関するいくつかの技術論文を探しています。

61 clustering pca k-means

10

クラスターの正しい数を決める方法は？

クラスターの中心を見つけて、k-meansクラスタリングでk個の異なるクラスタービンにポイントを割り当てます。これは、非常によく知られたアルゴリズムであり、ネット上のほとんどすべての機械学習パッケージにあります。しかし、私の意見で欠けている最も重要な部分は、正しいkの選択です。それに最適な値は何ですか？そして、最高の意味は何ですか？ここで説明する kを決定する方法としてシルエットプロットを見ることができる科学計算にMATLABを使用します。しかし、私はベイジアンアプローチにもっと興味があります。どんな提案も大歓迎です。

54 clustering k-means

3

K-MeansとEMを使用したクラスタリング：それらはどのように関連していますか？

データのクラスタリング（教師なし学習）アルゴリズム、EM、k-meansを研究しました。私は次を読み続けます： k-meansはEMの変形であり、クラスターが球形であるという仮定があります。誰かが上記の文を説明できますか？1つは確率的割り当てを行い、もう1つは決定論的な方法で行うため、球面が何を意味するのか、およびkmeansとEMがどのように関連するのかがわかりません。また、どのような状況でk-meansクラスタリングを使用したほうがよいでしょうか？またはEMクラスタリングを使用しますか？

50 machine-learning clustering data-mining k-means expectation-maximization

2

k-meansクラスタリングには平均の正規化と特徴のスケーリングが必要ですか？

k-meansを実行する前の最良の（推奨）前処理手順は何ですか？

44 clustering normalization k-means

5

クラスタリングの前にデータをスケーリングすることは重要ですか？

私が見つかりました。このチュートリアルあなたは（私はそれがzスコアにデータを変換することを信じている）クラスタ化する前に、機能上のスケールの機能を実行する必要があることを示唆しています。それが必要かどうか疑問に思っています。私は主に、データをスケーリングしないときに素敵な肘のポイントがあるので尋ねていますが、スケーリングすると消えます。:)

44 clustering k-means

5

離散変数と連続変数の両方を使用したデータセットのクラスタリング

10個の次元を持つデータセットXがあり、そのうち4個は離散値です。実際、これらの4つの離散変数は序数です。つまり、値が大きいほど意味が高い/良いことを意味します。これらの離散変数のうち2つは、これらの変数のそれぞれについて、たとえば11から12の距離が5から6の距離と同じではないという意味でカテゴリです。必ずしも線形ではありません（実際、実際には定義されていません）。私の質問は：離散変数と連続変数の両方を含むこのデータセットに、一般的なクラスタリングアルゴリズム（たとえば、K-Means、次にGaussian Mixture（GMM））を適用することをお勧めしますか？そうでない場合：離散変数を削除して、連続変数のみに焦点を合わせる必要がありますか？連続データをより良く離散化し、離散データにクラスタリングアルゴリズムを使用する必要がありますか？

33 clustering k-means discrete-data continuous-data gaussian-mixture

1

PCAはk-meansクラスタリング分析でどのように役立ちますか？

背景：住宅のユニット密度、人口密度、緑地面積、住宅価格、学校/保健センター/デイケアセンターの数など、社会経済的特性に基づいて都市の住宅地をグループに分類したい住宅地をいくつのグループに分けることができるか、そしてそれらのユニークな特性は何かを理解したいと思います。この情報は、都市計画を促進する可能性があります。いくつかの例に基づいて（このブログの投稿：Delta AircraftのPCAとK-meansクラスタリングを参照）、分析を行う方法は次のとおりです。最初にPCA分析を行います。 PCAの結果に基づいて一意のグループ（クラスター）の数を決定します（たとえば、「エルボ」法、または全分散の80〜90％を説明するコンポーネントの数を使用）。クラスターの数を決定したら、k-meansクラスタリングを適用して分類を行います。私の質問： PCAコンポーネントの数はクラスター分析に関係しているようです。たとえば、5つのPCAコンポーネントがすべての機能のバリエーションの90％以上を説明している場合、k-meansクラスタリングを適用して5つのクラスターを取得します。それでは、PCA分析の5つのコンポーネントに正確に対応する5つのグループでしょうか？別の言葉で言えば、私の質問は、PCA分析とk-meansクラスタリングの関係は何ですか？更新： Emre、xeon、およびKirillの入力に感謝します。したがって、現在の答え：クラスタリング分析の前にPCAを実行することは、特徴抽出機能としての次元削減とクラスターの視覚化/表示にも役立ちます。クラスタリング後にPCAを実行すると、クラスタリングアルゴリズムを検証できます（参照：カーネル主成分分析）。 PCAは、クラスタリングの前にデータセットの次元を減らすために時々適用されます。ただし、Yeung＆Ruzzo（2000）は、元の変数の代わりにPCを使用してクラスタリングしても、クラスターの品質が必ずしも向上しないことを示しました。特に、最初の数台のPC（データの変動の大部分を含む）は、必ずしもクラスター構造の大部分をキャプチャーするわけではありません。 Yeung、Ka Yee、およびWalter L. Ruzzo。遺伝子発現データをクラスタリングするための主成分分析に関する実証的研究。技術レポート、ワシントン大学、2000年コンピューター科学工学科（pdf） 2段階のクラスタリング分析の前に、PCAが必要と思われました。Ibes（2015）に基づき、PCAで特定された要因を使用してクラスター分析が実行されました。 Ibes、Dorothy C. 都市公園システムの多次元分類と公平性分析：新しい方法論とケーススタディアプリケーション。景観と都市計画、第137巻、2015年5月、122〜137ページ。

32 clustering pca k-means dimensionality-reduction

3

文字列（単語）の長いリストを類似グループにクラスタリングする

私には次の問題があります：非常に長い単語のリスト、おそらく名前、姓などがあります。この単語リストをクラスタ化する必要があります。同じクラスター。たとえば、「algorithm」と「alogrithm」は同じクラスターに表示される可能性が高いはずです。パターン認識の文献で、k-meansクラスタリング、EMクラスタリングなどの古典的な教師なしクラスタリング手法をよく知っています。ここでの問題は、これらのメソッドがベクトル空間にあるポイントで機能することです。私はここで手に弦の言葉を持っています。私のこれまでの調査努力によれば、数値ベクトル空間で文字列を表現し、文字列クラスタの「平均」を計算する方法の問題は十分に答えられていないようです。この問題を攻撃するための単純なアプローチは、k-Meansクラスタリングとレーベンシュタイン距離を組み合わせることですが、「ストリングの「手段」をどのように表現するのか？」という疑問は残ります。TF-IDFウェイトと呼ばれるウェイトがありますが、それは単一の単語のクラスタリングではなく、「テキストドキュメント」クラスタリングの領域にほとんど関連しているようです。 http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf この分野での検索はまだ続いていますが、ここからもアイデアを得たいと思いました。この場合、何をお勧めしますか？この種の問題の方法を知っている人はいますか？

31 clustering k-means pattern-recognition

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

タグ付けされた質問 「k-means」

タグ付けされた質問「k-means」