タグ付けされた質問 「clustering」

クラスター分析は、クラスラベルなどの既存の知識を使用せずに、相互の「類似性」に従ってデータをオブジェクトのサブセットに分割するタスクです。[clustered-standard-errorsおよび/またはcluster-samplesはそのようにタグ付けする必要があります。それらには「クラスタリング」タグを使用しないでください。]

2
見つかったクラスターの中心を取り、クラスターを新しいデータセットに割り当てるRの関数はありますか
多次元データセットには2つの部分がtrainありtestます。それらをおよびと呼びましょう。そして、列車のデータセットに基づいてモデルを構築し、テストデータセットで検証したいと思います。クラスターの数はわかっています。 Rにk-meansクラスタリングを適用しようとしましたが、クラスターの中心を含むオブジェクトが得られました。 kClust <- kmeans(train, centers=N, nstart=M) 見つかったクラスターの中心を取り、テストデータセットにクラスターを割り当てる関数がRにありますか? 私が試すことができる他の方法/アルゴリズムは何ですか?
14 r  clustering  k-means 


5
最小クラスターサイズの制約によるクラスタリング(k-meansなど)
グループ内平方和(WSS)を最小化するために、ユニットをクラスターにクラスター化する必要がありますが、クラスターに少なくともm個のユニットが含まれていることを確認する必要があります。Rのクラスタリング機能のいずれかが、最小クラスターサイズの制約の対象となるkクラスターへのクラスタリングを可能にするかどうかについての考えはありますか?kmeans()はサイズ制約オプションを提供していないようです。kkkmmmkkk
14 r  clustering 

5
距離(ユークリッド)を類似度スコアに変換する方法
私はを使用してkkkクラスタリングを行い、話者の声をクラスタリングします。発話をクラスター化されたスピーカーデータと比較すると、(ユークリッド距離に基づく)平均歪みが得られます。この距離は、範囲になります[0,∞][0,∞][0,\infty]。私はこの距離を変換したい[0,1][0,1][0,1]類似性スコア。これを達成する方法を教えてください。

1
重複排除の最先端
レコード重複排除の最新の方法は何ですか?重複排除は、レコードリンケージ、エンティティ解決、ID解決、マージ/パージとも呼ばれます。たとえば、CBLOCK [1]について知っています。 回答にメソッドを実装する既存のソフトウェアへの参照も含まれていれば幸いです。たとえば、Mahoutはキャノピークラスタリングを実装していることを知っています。Luceneを使用するDukeもあります。 重複排除には多くの商用システムがあります。それらがどのように機能し、どれだけ効率的であるかを知ることは価値があるでしょう。 単一のデータセット内の重複排除と、異なるソースからの複数のデータセット間のリンクの両方に興味があります。大量のデータを処理する効率と能力も重要です。 [1] CBLOCK:大規模な重複排除タスクの自動ブロックメカニズム

1
DBSCANのepsとminPtsを選択するルーチン
DBSCANは、いくつかの文献によると最もよく引用されるクラスタリングアルゴリズムであり、密度に基づいて任意の形状のクラスターを見つけることができます。2つのパラメーターeps(近傍半径として)とminPts(ポイントをコアポイントと見なすための最小近傍)があり、これらに大きく依存していると思います。 これらのパラメーターを選択するためのルーチンまたは一般的に使用される方法はありますか?

3
Rでのビッグデータのクラスター化とサンプリングの関連性
私はデータサイエンスの初心者であり、Rに200,000行と50列のデータセットでクラスターを見つけるのに問題があります。 データには数値変数と名義変数の両方があるため、ユークリッド距離測定を使用するK-meansなどの方法は適切な選択のようには見えません。そこで、距離行列を入力として受け入れるPAM、agnes、hclustを使用します。 デイジー方式は混合タイプのデータで機能しますが、距離行列は大きすぎます:200,000 x 200,000は2 ^ 31-1(R 3.0.0より前のベクトル長の制限)よりもはるかに大きいです。 昨日リリースされた新しいR 3.0.0は、長さが2 ^ 31-1を超える長いベクトルをサポートしています。しかし、200,000 x 200,000のダブルマトリックスには、16Gbを超える連続RAMが必要であり、これは私のマシンでは不可能です。 並列コンピューティングとbigmemoryパッケージについて読みましたが、それらが役立つかどうかはわかりません。デイジーを使用している場合、メモリに収まらない大きなマトリックスが生成されます。 サンプリングに関する投稿についても読みました 。「ビッグデータ」の時間にサンプリングは関連していますか? だから私の場合、データセットでサンプリングを使用し、サンプルでクラスター化し、データセット全体の構造を推測するのは適切ですか? 提案をお願いします。ありがとうございました! 私のマシンについて: Rバージョン3.0.0(2013-04-03) プラットフォーム:x86_64-w64-mingw32 / x64(64ビット) OS:Windows 7 64ビット RAM:16.0GB

5
テンポラルデータの適切なクラスタリング手法ですか?
活動頻度の一時的なデータがあります。データ内で、類似したアクティビティレベルを持つ異なる期間を示すクラスターを特定したい。理想的には、事前にクラスターの数を指定せずにクラスターを識別したいと思います。 適切なクラスタリング手法とは何ですか?質問に答えるのに十分な情報が含まれていない場合、適切なクラスタリング手法を決定するために提供する必要がある情報は何ですか? 以下は、私が想像している種類のデータ/クラスタリングの実例です。

4
データセットのランダムサブサンプルを使用してK平均センターを初期化していますか?
特定のデータセットがある場合、そのデータセットのランダムサンプルを使用してクラスターセンターを初期化するのはどれくらい賢明でしょうか。 たとえば、が欲しいとし5 clustersます。私は取る5 random samples、と言うのsize=20%元のデータセットで。次に、これら5つのランダムサンプルのそれぞれの平均を取り、それらの平均を5つの初期クラスターセンターとして使用できますか?私はこれをどこで読んだのか分かりませんが、皆さんがアイデアについてどう思うか知りたいと思いました。 更新:このスレッドを参照してくださいK-meansクラスタリングの初期化:既存のメソッドは何ですか?さまざまな初期化方法についての一般的な議論。

2
統計的有意性検定を使用してクラスター分析結果を検証する
クラスター分析の結果を検証するために、統計的有意性検定(SST)の使用を調査しています。このトピックに関するいくつかの論文を見つけました。 「高次元、低サンプルサイズデータのクラスタリングの統計的重要性」、Liu、Yufeng et al。(2008) 「クラスター分析におけるいくつかの有意性検定について」、Bock(1985) しかし、クラスター分析の結果を検証するのにSSTは適切でないと主張する文献を見つけることに興味があります。私がこれを主張している唯一のソースは、ソフトウェアベンダーのウェブページです 明確にするために: クラスター分析の結果、重要なクラスター構造が見つかったかどうかをテストすることに興味があるので、「探索的データの結果の事後テストの可能性に関する懸念を支持または反論する論文を知りたい」クラスタを見つけるために使用される分析」。 たとえば、Milligan and Hirtleによる2003年の「クラスタリングと分類方法」という論文を見つけました。たとえば、データにはグループへのランダムな割り当てがないため、ANOVAの使用は無効な分析になります。

2
クラスタリング結果の比較を理解する
データをグループに分類する実験をしています。私はこのトピックに非常に新しく、いくつかの分析の出力を理解しようとしています。 Quick-Rの例を使用して、いくつかのRパッケージを提案します。これらのパッケージのうち2つを使用してみました(関数とfpcを使用)。私が理解していないこの分析の1つの側面は、結果の比較です。kmeansmclust # comparing 2 cluster solutions library(fpc) cluster.stats(d, fit1$cluster, fit2$cluster) 私はfpc マニュアルの関連部分を読みましたが、私が何を目指しているべきかまだ明確ではありません。たとえば、これは2つの異なるクラスタリングアプローチを比較した結果です。 $n [1] 521 $cluster.number [1] 4 $cluster.size [1] 250 119 78 74 $diameter [1] 5.278162 9.773658 16.460074 7.328020 $average.distance [1] 1.632656 2.106422 3.461598 2.622574 $median.distance [1] 1.562625 1.788113 2.763217 2.463826 $separation [1] 0.2797048 0.3754188 0.2797048 0.3557264 $average.toother …
13 r  clustering 

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。


3
kmeansを実行する前に、相関/共線の変数を削除する必要がありますか?
顧客のクラスターを識別するためにkmeansを実行しています。クラスターを識別する変数は約100個あります。これらの各変数は、カテゴリに対する顧客の支出の割合を表します。そのため、100個のカテゴリがある場合、これらの変数の合計が各顧客に対して100%になるように、これらの100個の変数があります。現在、これらの変数は互いに強く相関しています。kmeansを実行する前に、これらのいくつかをドロップして共線性を除去する必要がありますか? サンプルデータは次のとおりです。実際には、100個の変数と1,000万人の顧客がいます。 Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

3
クラスタリング確率分布-メソッドとメトリック?
いくつかのデータポイントがあり、それぞれに5つのベクトルの凝集した離散結果が含まれ、各ベクトルの結果は異なる分布によって生成されます(特定の種類は定かではありませんが、私の最良の推測はワイブルで、形状パラメーターは指数関数の周りで変化します)法律(1〜0、大体)。) K-Meansなどのクラスタリングアルゴリズムを使用して、5つのコンポーネント分布の属性に基づいて各データポイントをグループに入れたいと考えています。これらの目的に適した確立された距離メトリックがあるかどうか疑問に思っていました。これまでに3つのアイデアがありましたが、私は経験豊富な統計学者ではありません(データマイニングコンピューター科学者の始まりです)。 私が扱っている分布の種類が正確にはわからないので、問題に対する私の総当たり的なアプローチは、各分布(1ポイントあたり5つ)をそれぞれの個別のデータ値に分割することでした(I padそれぞれが同じ長さに対応し、最後にゼロが付いています)、これらの各値をデータポイント自体の個別の属性として使用します。PDFとCDFの両方について、これらの属性に基づくメトリックとしてマンハッタン距離とユークリッド距離の両方を使用してみました。 繰り返しますが、どのような分布があるのか​​わからないので、全体の分布間の距離を測定する場合、KSテストなどの分布間でペアである種のノンパラメトリックテストを使用できると考えました、特定の分布が異なるPDFによって生成された可能性を見つけるため。マンハッタン距離を使用する最初のオプション(上記)は、このアプローチを使用して得られるものの一種の上限になると考えました(KS統計はCDFの差の最大絶対値であり、マンハッタン距離はPDFの差の絶対値の合計)。次に、おそらくユークリッド距離を使用して、各データポイント内で異なるKS統計値またはP値を結合することを検討しましたが、これらの値のすべての最大値を取得することもできます。 最後に、分布の形状についてほとんど解釈できないものを使用するために、ワイブル曲線に適合するように分布のパラメーターを推定しようと考えました。次に、ワイブル分布の2つのパラメーター、ラムダとk(スケールと形状)の違いに基づいて分布をクラスター化できます。おそらく、これらのパラメーターの分散またはある種のものに従って正規化されます。これは、パラメーターを正規化する方法のアイデアがあると思った唯一のケースです。 それで、私の質問は、分布のクラスタリングのためにどのような尺度/方法をお勧めしますか?私はこれらのどれでも正しい軌道に乗っていますか?K-Meansは使用するのに適したアルゴリズムでもありますか? 編集:データの明確化。 各データポイント(Objクラスター化する各オブジェクト)には5 vectors、実際には文字通りデータが含まれています。これらのオブジェクトが入ることができるフェーズは正確に5つあることを知っています。(単純化のために)各ベクトルはであると言いますlength N。 これらのベクターの各々は(それを呼び出すvector i)整数の確率分布であるx-values各対応するY値が測定される確率を表し、N、スルー1のvalue x中phase iのオブジェクトのをObj。Nは、オブジェクトの任意のフェーズで測定する予定の最大x値です(これは実際の分析では固定値ではありません)。 これらの確率は次の方法で決定します。 私はシングルを取り、各トライアルで測定を行うためObjにそれを入れました。各測定は単一の整数です。これは、単一オブジェクトの5つのフェーズのそれぞれに対して、そして各オブジェクトに対して順番に行います。単一のオブジェクトの生の測定データは次のようになります。phase ik trials ベクトル1. [90、42、30、9、3、4、0、1、0、0、1] ベクトル2。[150、16、5、0、1、0、0、0、0、0、0] ... ベクトル5. [16、... ...、0] 次に、与えられたベクトル内の測定の総数に関して、各ベクトルを独自に正規化します。これにより、そのベクトルの確率分布が得られます。対応する各y値は、で測定さvalue xれる確率を表しphase iます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.