タグ付けされた質問 「dbscan」

1
DBSCANのepsとminPtsを選択するルーチン
DBSCANは、いくつかの文献によると最もよく引用されるクラスタリングアルゴリズムであり、密度に基づいて任意の形状のクラスターを見つけることができます。2つのパラメーターeps(近傍半径として)とminPts(ポイントをコアポイントと見なすための最小近傍)があり、これらに大きく依存していると思います。 これらのパラメーターを選択するためのルーチンまたは一般的に使用される方法はありますか?

1
DBSCANを使用して私のポイントのほとんどがノイズとして分類されるのはなぜですか?
一部のデータをクラスター化するためにsklearnのいくつかのクラスター化アルゴリズムを使用していますが、DBSCANで何が起こっているのか理解できません。私のデータはTfidfVectorizerからのドキュメントタームマトリックスで、数百の前処理されたドキュメントが含まれています。 コード: tfv = TfidfVectorizer(stop_words=STOP_WORDS, tokenizer=StemTokenizer()) data = tfv.fit_transform(dataset) db = DBSCAN(eps=eps, min_samples=min_samples) result = db.fit_predict(data) svd = TruncatedSVD(n_components=2).fit_transform(data) // Set the colour of noise pts to black for i in range(0,len(result)): if result[i] == -1: result[i] = 7 colors = [LABELS[l] for l in result] pl.scatter(svd[:,0], svd[:,1], c=colors, s=50, …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.