タグ付けされた質問 「k-means」

k-meansは、指定された数の平均k、stを見つけることによってデータをクラスターに分割する方法です。データが最も近い平均のw / iクラスターに割り当てられた場合、二乗のw / iクラスター合計は最小化されます。


1
データマトリックス(テキストマイニングデータ)と同様に、距離マトリックスでk平均を実行することは有効でしたか?
(この投稿は私が昨日投稿した質問の再投稿です(現在は削除されています)が、私は言葉の量を減らし、質問の内容を単純化しようとしました) 私が作成したkmeansスクリプトと出力を解釈するのに役立つ情報を得たいと思っています。これはテキスト分析のコンテキストにあります。このスクリプトは、テキスト分析に関するオンラインの記事をいくつか読んだ後に作成しました。それらのいくつかを以下にリンクしました。 この投稿全体で参照するサンプルのrスクリプトとテキストデータのコーパス: library(tm) # for text mining ## make a example corpus # make a df of documents a to i a <- "dog dog cat carrot" b <- "phone cat dog" c <- "phone book dog" d <- "cat book trees" e <- "phone orange" f <- "phone …

2
k-means ++アルゴリズムと外れ値
外れ値が存在すると、k平均アルゴリズムが影響を受けることはよく知られています。k-means ++は、クラスター中心の初期化に有効な方法の1つです。この方法の創設者であるセルゲイヴァシルヴィツキーとデビッドアーサーがPPTを行っていましたhttp://theory.stanford.edu/~sergei/slides/BATS-Means.pdf(スライド28)これは、クラスターセンターの初期化が以下に示すように、外れ値の影響を受けません。 k-means ++メソッドに従って、最も遠い点が初期中心である可能性が高くなります。このようにして、外れ値ポイント(右端のポイント)も初期クラスター重心でなければなりません。図の説明は何ですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.