統計とビッグデータ k-means

2

誰かが、平均クラスタリングのメモリ要件に影響を与える要因を少し説明して教えてもらえますか？kkk

8 clustering k-means

1

データマトリックス（テキストマイニングデータ）と同様に、距離マトリックスでk平均を実行することは有効でしたか？

（この投稿は私が昨日投稿した質問の再投稿です（現在は削除されています）が、私は言葉の量を減らし、質問の内容を単純化しようとしました）私が作成したkmeansスクリプトと出力を解釈するのに役立つ情報を得たいと思っています。これはテキスト分析のコンテキストにあります。このスクリプトは、テキスト分析に関するオンラインの記事をいくつか読んだ後に作成しました。それらのいくつかを以下にリンクしました。この投稿全体で参照するサンプルのrスクリプトとテキストデータのコーパス： library(tm) # for text mining ## make a example corpus # make a df of documents a to i a <- "dog dog cat carrot" b <- "phone cat dog" c <- "phone book dog" d <- "cat book trees" e <- "phone orange" f <- "phone …

8 r clustering k-means text-mining

2

k-means ++アルゴリズムと外れ値

外れ値が存在すると、k平均アルゴリズムが影響を受けることはよく知られています。k-means ++は、クラスター中心の初期化に有効な方法の1つです。この方法の創設者であるセルゲイヴァシルヴィツキーとデビッドアーサーがPPTを行っていましたhttp://theory.stanford.edu/~sergei/slides/BATS-Means.pdf（スライド28）これは、クラスターセンターの初期化が以下に示すように、外れ値の影響を受けません。 k-means ++メソッドに従って、最も遠い点が初期中心である可能性が高くなります。このようにして、外れ値ポイント（右端のポイント）も初期クラスター重心でなければなりません。図の説明は何ですか？

8 clustering k-means

タグ付けされた質問 「k-means」

タグ付けされた質問「k-means」