統計とビッグデータ clustering

4

すべてのアイテムが他のアイテムとどのように相関しているかを示す相関行列があります。したがって、N個のアイテムについては、すでにN * N相関行列があります。この相関行列を使用して、k番目のビンのNk個のアイテムが同じように動作すると言うことができるように、M個のビンのN個のアイテムをクラスター化する方法を教えてください。親切に私を助けてください。すべてのアイテム値はカテゴリです。ありがとう。さらに情報が必要な場合はお知らせください。Pythonでの解決策が必要ですが、要件に向かって私を押し進める助けは大きな助けになります。

20 clustering python k-means

5

余弦の非類似度行列を計算するR関数はありますか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。去年閉鎖されました。コサイン距離に基づく行クラスタリングを使用してヒートマップを作成したいと思います。私はRを使用heatmap.2()して図を作成しています。私はそこだと見ることができdist、パラメータは、heatmap.2私はコサイン非類似度行列を生成する機能を見つけることができません。組み込みのdist機能は、コサイン距離をサポートしていない、私はとも呼ばれるパッケージたarulesとdissimilarity()機能をそれだけで、バイナリデータで動作します。

20 r clustering similarities

3

階層的クラスタリングのユークリッド距離測定で正規化する理由

明らかに、距離測度がユークリッド距離である階層的クラスタリングでは、データは最初に正規化または標準化されて、最大分散の共変量がクラスタリングを駆動しないようにする必要があります。どうしてこれなの？この事実は望ましくありませんか？

19 clustering normalization

8

Rを使用した混合型データのクラスタリング

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。データ変数が混在するデータのクラスタリングをR内で実行できるかどうか疑問に思います。つまり、数値変数とカテゴリ変数の両方を含むデータセットがあり、それらをクラスター化する最適な方法を見つけています。SPSSでは、2ステップクラスターを使用します。Rで同様の手法を見つけることができるかどうか疑問に思います。poLCAパッケージについて言われましたが、よくわかりません...

19 r clustering mixed-type-data

1

K-meansクラスタリングでクラスターの数を定義する方法は？

最適なクラスター番号を決定する方法はありますか？または、異なる値を試してエラー率を確認して最適な値を決定する必要がありますか？

19 clustering unsupervised-learning

4

クラスター分析を説明しようとするとき、プロセスが変数が相関しているかどうかに関連していると誤解するのは一般的です。混乱を乗り越える方法の1つは、次のようなプロットです。これにより、クラスターがあるかどうかの問題と、変数が関連しているかどうかの問題の違いが明確に表示されます。ただし、これは連続データの区別のみを示しています。カテゴリデータを持つアナログを考えるのに問題があります。 ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no 2つの明確なクラスターがあることがわかります。プロパティAとBの両方を持つ人と、持たない人です。ただし、変数を見ると（たとえば、カイ2乗検定で）、それらは明らかに関連しています： tab # B # A yes no # yes 4 0 # no 0 4 chisq.test(tab) # X-squared = 4.5, …

19 clustering categorical-data independence

4

階層的クラスタリングの欠点を理解する方法は？

誰かが階層的クラスタリングの長所と短所を説明できますか？階層的クラスタリングには、Kの意味と同じ欠点がありますか？階層的クラスタリングのKを超える利点は何ですか？階層的クラスタリングに対してKを使用する場合、およびその逆の場合はいつですか？この投稿への回答では、kの欠点が非常によく説明されています。 K-meansの欠点を理解する方法

19 clustering k-means unsupervised-learning hierarchical-clustering

3

k-meansクラスターパーティションの最も重要な特徴の推定

データセットのどの特徴/変数がk-meansクラスターソリューション内で最も重要/支配的であるかを判断する方法はありますか？

19 machine-learning clustering k-means importance

3

明らかに2つあるにもかかわらず、k-meansのギャップ統計が1つのクラスターを示唆するのはなぜですか？

K-meansを使用してデータをクラスター化し、「最適な」クラスター番号を提案する方法を探していました。ギャップ統計は、適切なクラスター番号を見つける一般的な方法のようです。何らかの理由で最適なクラスター番号として1を返しますが、データを見ると2つのクラスターがあることが明らかです。これは私がRのギャップを呼び出す方法です： gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) 結果セット： > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 3.884438 -0.0395891064 0.1231152 [4,] 3.564816 3.563931 -0.0008853886 0.1387907 [5,] 3.356504 3.327964 -0.0285393917 …

18 r machine-learning clustering k-means

1

疎データ行列で動作するクラスタリングアルゴリズム[非公開]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 5年前に閉鎖されました。次のクラスタリングアルゴリズムのリストをコンパイルしようとしています。 Rで実装 sparseMatrix関数によって作成されるような、スパースデータ行列（（非）非類似度行列ではない）で操作します。 CVにはこの概念を説明する他のいくつかの質問がありますが、スパース行列で直接操作できるRパッケージにリンクするものはありません。大規模で疎なデータセットのクラスタリング高次元のスパースバイナリデータのクラスタリング疎で高次元のクラスタリング実装を探していますスペース効率の高いクラスタリングこれまでのところ、スパース行列をクラスター化できるRの関数を1つだけ見つけました。 skmeans：球面kmeans skmeansパッケージから。コサイン距離を使用したkmeans 。dgTMatrixオブジェクトを操作します。遺伝的k-meansアルゴリズム、pclust、CLUTO、gmeans、およびkmndirsへのインターフェースを提供します。例： library(Matrix) set.seed(42) nrow <- 1000 ncol <- 10000 i <- rep(1:nrow, sample(5:100, nrow, replace=TRUE)) nnz <- length(i) M1 <- sparseMatrix(i = i, j = sample(ncol, nnz, replace = TRUE), x = sample(0:1 , …

18 r clustering sparse

3

多次元クラスターデータを視覚的にプロットする

16個の変数を含むデータセットがあり、kmeansでクラスタリングした後、2つのグループをプロットしたいと思います。 2つのクラスターを視覚的に表すには、どのプロットをお勧めしますか？

17 data-visualization clustering k-means

4

「次元の呪い」は実際のデータに本当に存在しますか？

「次元の呪い」とは何かを理解し、高次元の最適化問題をいくつか実行し、指数関数的可能性の課題を知っています。しかし、ほとんどの現実世界のデータに「次元の呪い」が存在するかどうかは疑わしい（画像やビデオはしばらく置いておきましょう。顧客の人口統計データや購入行動データなどのデータについて考えています）。数千の機能を持つデータを収集することはできますが、機能が数千の次元を持つ空間に完全に広がることはほとんど不可能です。これが、次元削減手法が非常に人気がある理由です。言い換えると、データには指数レベルの情報が含まれていない可能性が非常に高いです。つまり、多くの特徴が高度に相関しており、多くの特徴が80〜20のルールを満たしています。そのような場合、KNNのようなメソッドはまだ十分に機能すると思います。（ほとんどの本では、「次元の呪い」は次元> 10が問題になる可能性があると述べています。デモでは、エントロピーが非常に高いすべての次元で均一分布を使用します。私の実際のデータの経験では、「次元の呪い」はテンプレートメソッド（KNNなど）にあまり影響を与えず、ほとんどの場合、次元〜100でも機能します。これは他の人にも当てはまりますか？（私は本で説明されているように、「すべての距離のペアが同様の値を持っている」ということを観察したことはありませんでした。

17 clustering dimensionality-reduction high-dimensional

2

クラスタリング—クラインバーグの不可能性定理の裏にある直観

Kleinberg（2002）によるクラスタリングの難しさを探るこの興味深い分析に関するブログ投稿を書くことを考えています。クラインバーグは、クラスタリング関数の3つの一見直感的な設計を概説し、そのような関数が存在しないことを証明しています。3つの基準のうち2つを満足させる多くのクラスタリングアルゴリズムがあります。ただし、3つすべてを同時に満たす機能はありません。簡潔かつ非公式に、彼が概説する3つの要求事項は次のとおりです。 Scale-Invariance：すべての方向にすべてが均等に引き伸ばされるようにデータを変換する場合、クラスタリング結果は変わらないはずです。一貫性：クラスター間の距離が増加するように、および/またはクラスター内の距離が減少するようにデータをストレッチする場合、クラスタリングの結果は変わらないはずです。豊富さ：クラスタリング機能は、理論的には、データポイントの任意のパーティション/クラスタリングを生成できる必要があります（2つのポイント間のペアワイズ距離がわからない場合）質問：（1）これらの3つの基準間の矛盾を示すことができる、直感的で幾何学的な絵はありますか？（2）これは、論文の技術的な詳細を指します。質問のこの部分を理解するには、上記のリンクを読む必要があります。論文では、定理3.1の証明は、私がいくつかの点で従うのが少し難しいです。私は、こだわっている：「してみましょう。クラスタリング機能も満たす一貫性私たちはどんなパーティションのためと主張しているΓ ∈ レンジ（F ）、正の実数が存在する< bのペアよう（、bが）ですΓ -強制する。」fffΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)a<ba<ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma 私はこれがどうなるかわかりません... 反例の下のパーティションではありませんか（つまり、クラスター間の最小距離はクラスター内の最大距離よりも大きい）？a>ba>ba > b 編集：これは明らかに反例ではなく、私は自分自身を混乱させていました（回答を参照）。その他の論文： Ackerman＆Ben-David（2009）。クラスタリング品質の尺度：クラスタリングの公理のワーキングセット「一貫性」公理に関するいくつかの問題を指摘する

17 mathematical-statistics clustering intuition hierarchical-clustering

9

ランドインデックスの計算

クラスターアルゴリズムのランドインデックスを計算する方法を理解しようとしていますが、真と偽のネガを計算する方法で立ち往生しています。現時点では、書籍「情報検索入門」（Manning、Raghavan＆Schütze、2009）の例を使用しています。359ページで、ランドインデックスの計算方法について説明しています。この例では、3つのクラスターを使用し、クラスターには次のオブジェクトが含まれています。ああああ abbbbc aaccc オブジェクトを置き換えます（元の文字から文字へのサインですが、アイデアとカウントは同じままです）。彼らが何を話しているかを見るために、本から正確な言葉を与えます。最初にTP + FPを計算します。3つのクラスターにはそれぞれ6、6、および5ポイントが含まれているため、同じクラスター内にある「陽性」またはドキュメントのペアの総数は次のとおりです。 TP + FP = (62)(62){6 \choose 2} + (62)(62){6 \choose 2} + (52)(52){5 \choose 2} = 15 + 15+ 10 = 40 これらのうち、クラスター1のaペア、クラスター2のbペア、クラスター3のcペア、クラスター3のaペアは真陽性です。 TP = (52)(52){5 \choose 2} + (42)(42){4 \choose 2} + (32)(32){3 \choose 2} + (22)(22){2 \choose 2} = …

17 clustering

1

潜在ディリクレ割り当てを使用するための入力パラメーター

トピックモデリング（潜在ディリクレ割り当て）を使用する場合、トピックの数はユーザーが指定する必要がある入力パラメーターです。 Dirichletプロセスがサンプリングする必要がある候補トピックセットのコレクションも提供する必要があるように見えますか？私の理解は正しいですか？実際には、この種の候補トピックセットを設定する方法は？

17 machine-learning bayesian clustering text-mining dirichlet-distribution

タグ付けされた質問 「clustering」

タグ付けされた質問「clustering」