統計とビッグデータ clustering

5

10個の次元を持つデータセットXがあり、そのうち4個は離散値です。実際、これらの4つの離散変数は序数です。つまり、値が大きいほど意味が高い/良いことを意味します。これらの離散変数のうち2つは、これらの変数のそれぞれについて、たとえば11から12の距離が5から6の距離と同じではないという意味でカテゴリです。必ずしも線形ではありません（実際、実際には定義されていません）。私の質問は：離散変数と連続変数の両方を含むこのデータセットに、一般的なクラスタリングアルゴリズム（たとえば、K-Means、次にGaussian Mixture（GMM））を適用することをお勧めしますか？そうでない場合：離散変数を削除して、連続変数のみに焦点を合わせる必要がありますか？連続データをより良く離散化し、離散データにクラスタリングアルゴリズムを使用する必要がありますか？

33 clustering k-means discrete-data continuous-data gaussian-mixture

2

階層的クラスタリングのための正しいリンケージ方法の選択

Google BigQueryのredditデータダンプから収集および処理したデータに対して階層クラスタリングを実行しています。私のプロセスは次のとおりです。 / r / politicsで最新の1000件の投稿を取得すべてのコメントを集めるデータを処理し、n x mデータマトリックスを計算します（n：users / samples、m：posts / features）階層的クラスタリングの距離行列を計算するリンク方法を選択して、階層クラスタリングを実行しますデータを樹状図としてプロットする私の質問は、最適なリンケージ方法がどのように決定されるのですか？私は現在、使用していますWardが、私が使用してするかどうか私は知らないsingle、complete、average、など？私はこのようなものに非常に新しいですが、私は1つが確かではないので、オンラインで明確な答えを見つけることができません。それでは、私のアプリケーションにとって良いアイデアは何でしょうか？n x mマトリックスに多くのゼロがあるという意味で、データは比較的まばらであることに注意してください（ほとんどの人は、数件以上の投稿にコメントしません）。

33 clustering distance unsupervised-learning hierarchical-clustering

1

PCAはk-meansクラスタリング分析でどのように役立ちますか？

背景：住宅のユニット密度、人口密度、緑地面積、住宅価格、学校/保健センター/デイケアセンターの数など、社会経済的特性に基づいて都市の住宅地をグループに分類したい住宅地をいくつのグループに分けることができるか、そしてそれらのユニークな特性は何かを理解したいと思います。この情報は、都市計画を促進する可能性があります。いくつかの例に基づいて（このブログの投稿：Delta AircraftのPCAとK-meansクラスタリングを参照）、分析を行う方法は次のとおりです。最初にPCA分析を行います。 PCAの結果に基づいて一意のグループ（クラスター）の数を決定します（たとえば、「エルボ」法、または全分散の80〜90％を説明するコンポーネントの数を使用）。クラスターの数を決定したら、k-meansクラスタリングを適用して分類を行います。私の質問： PCAコンポーネントの数はクラスター分析に関係しているようです。たとえば、5つのPCAコンポーネントがすべての機能のバリエーションの90％以上を説明している場合、k-meansクラスタリングを適用して5つのクラスターを取得します。それでは、PCA分析の5つのコンポーネントに正確に対応する5つのグループでしょうか？別の言葉で言えば、私の質問は、PCA分析とk-meansクラスタリングの関係は何ですか？更新： Emre、xeon、およびKirillの入力に感謝します。したがって、現在の答え：クラスタリング分析の前にPCAを実行することは、特徴抽出機能としての次元削減とクラスターの視覚化/表示にも役立ちます。クラスタリング後にPCAを実行すると、クラスタリングアルゴリズムを検証できます（参照：カーネル主成分分析）。 PCAは、クラスタリングの前にデータセットの次元を減らすために時々適用されます。ただし、Yeung＆Ruzzo（2000）は、元の変数の代わりにPCを使用してクラスタリングしても、クラスターの品質が必ずしも向上しないことを示しました。特に、最初の数台のPC（データの変動の大部分を含む）は、必ずしもクラスター構造の大部分をキャプチャーするわけではありません。 Yeung、Ka Yee、およびWalter L. Ruzzo。遺伝子発現データをクラスタリングするための主成分分析に関する実証的研究。技術レポート、ワシントン大学、2000年コンピューター科学工学科（pdf） 2段階のクラスタリング分析の前に、PCAが必要と思われました。Ibes（2015）に基づき、PCAで特定された要因を使用してクラスター分析が実行されました。 Ibes、Dorothy C. 都市公園システムの多次元分類と公平性分析：新しい方法論とケーススタディアプリケーション。景観と都市計画、第137巻、2015年5月、122〜137ページ。

32 clustering pca k-means dimensionality-reduction

3

凝集階層クラスタリングのどのようなストップ基準が実際に使用されていますか？

私は、あらゆる種類の基準を提案する広範な文献を見つけました（例えば、Glenn et al。1985（pdf）およびJung et al。2002（pdf））。ただし、これらのほとんどは実装がそれほど容易ではありません（少なくとも私の観点からは）。私が使用していますscipy.cluster.hierarchyをクラスタ階層を得るために、私は今、それからフラットなクラスターを形成する方法を決定しようとしています。私の目標は、観測結果に共通のパターンを発見することです。そのため、取得したクラスタリングと比較するための参照はありません。誰でも実用的な解決策を提案できますか？

32 clustering

3

文字列（単語）の長いリストを類似グループにクラスタリングする

私には次の問題があります：非常に長い単語のリスト、おそらく名前、姓などがあります。この単語リストをクラスタ化する必要があります。同じクラスター。たとえば、「algorithm」と「alogrithm」は同じクラスターに表示される可能性が高いはずです。パターン認識の文献で、k-meansクラスタリング、EMクラスタリングなどの古典的な教師なしクラスタリング手法をよく知っています。ここでの問題は、これらのメソッドがベクトル空間にあるポイントで機能することです。私はここで手に弦の言葉を持っています。私のこれまでの調査努力によれば、数値ベクトル空間で文字列を表現し、文字列クラスタの「平均」を計算する方法の問題は十分に答えられていないようです。この問題を攻撃するための単純なアプローチは、k-Meansクラスタリングとレーベンシュタイン距離を組み合わせることですが、「ストリングの「手段」をどのように表現するのか？」という疑問は残ります。TF-IDFウェイトと呼ばれるウェイトがありますが、それは単一の単語のクラスタリングではなく、「テキストドキュメント」クラスタリングの領域にほとんど関連しているようです。 http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf この分野での検索はまだ続いていますが、ここからもアイデアを得たいと思いました。この場合、何をお勧めしますか？この種の問題の方法を知っている人はいますか？

31 clustering k-means pattern-recognition

3

潜在クラス分析とクラスター分析-推論の違い？

潜在クラス分析（LCA）とクラスター分析から作成できる推論の違いは何ですか？クラスター分析はクラスター化アルゴリズムからの相関属性の経験的記述であるのに対し、LCAはクラスを生じさせる潜在的な潜在変数を想定しているのは正しいですか？社会科学では、LCAが人気を得ており、クラスター分析では得られない正式なカイ2乗有意性検定があるため、方法論的に優れていると考えられます。「LCAはこれに適していますが（クラスター分析ではありません）、クラスター分析はこれに適しています（ただし、潜在クラス分析ではありません）」の形式で例を提供できれば素晴らしいと思います。ありがとう！ブライアン

30 clustering latent-variable latent-class

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

異なる距離と方法で得られた階層的クラスタリング樹状図の比較

[最初のタイトル「階層的クラスタリングツリーの類似性の測定」は、トピックをよりよく反映するために@ttnphnsによって後に変更されました] 私は患者記録のデータフレームでいくつかの階層的クラスター分析を実行しています（例：http ://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=yに類似）私は、さまざまな距離測定、さまざまなパラメーターの重み、さまざまな階層的手法を試し、最終的なクラスター/構造/ビューのツリー（樹形図）への影響を理解しています。異なる階層ツリー間の差を計算する標準的な計算/尺度があるかどうか、およびRでこれを実装する方法（たとえば、一部のツリーがほぼ同一で、一部が大幅に異なることを定量化する）

28 r clustering distance-functions similarities dendrogram

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

標準および球面k-meansアルゴリズムの違い

標準と球状のk-meansクラスタリングアルゴリズムの主要な実装の違いは何かを理解したいと思います。各ステップで、k-meansは要素ベクトルとクラスター重心間の距離を計算し、重心が最も近いクラスターにドキュメントを再割り当てします。次に、すべての重心が再計算されます。球面k-meansでは、すべてのベクトルが正規化され、距離測定は余弦の非類似度です。それだけですか、それとも何かありますか？

28 clustering data-mining algorithms k-means

4

Rで次元削減を行う方法

私は、a（i、j）が個々のiがページjを閲覧した回数を教えてくれるマトリックスを持っています。27Kの個人と95Kのページがあります。一緒に表示されることが多いページのセットに対応するページのスペースに、いくつかの「ディメンション」または「アスペクト」を持ちたいと思います。私の最終的な目標は、次元1、次元2などに該当するページを個人がどれだけ頻繁に閲覧したかを計算できるようにすることです。主成分分析と単一値分解に関するRのドキュメントを読んで、これらのコマンドを実行しましたが、どのように進めたらよいかわかりません。次元削減を使用してこれを行うにはどうすればよいですか？または、これは本当にクラスタリングの問題であり、代わりにクラスタリングアルゴリズムを調べる必要がありますか？洞察力に感謝します〜l

28 r clustering dimensionality-reduction

2

クラスタリングでバイナリ変数と連続変数の両方を一緒に使用する方法は？

k-meansでバイナリ変数（値0および1）を使用する必要があります。ただし、k-meansは連続変数でのみ機能します。一部の人々は、k-meansが連続変数に対してのみ設計されているという事実を無視して、k-meansでこれらのバイナリ変数をまだ使用していることを知っています。これは私には受け入れられません。質問：それでは、k-means /階層的クラスタリングでバイナリ変数を使用する統計的/数学的に正しい方法は何ですか？ SAS / Rでソリューションを実装する方法は？

27 r clustering binary-data k-means mixed-type-data

3

重心を見つけることは、平均を見つけることとどう違うのですか？

階層クラスタリングを実行する場合、多くのメトリックを使用してクラスター間の距離を測定できます。このような2つのメトリックは、クラスター内の重心とデータポイントの平均の計算を意味します。平均と重心の違いは何ですか？これらはクラスター内の同じポイントではありませんか？

26 clustering mean

3

LSAとPCA（ドキュメントクラスタリング）

ドキュメントクラスタリングで使用されるさまざまな手法を調査していますが、PCA（主成分分析）およびLSA（潜在的意味分析）に関するいくつかの疑問をクリアしたいと思います。まず、それらの違いは何ですか？PCAでは、SVD分解が用語共分散行列に適用されるのに対して、LSAでは用語文書行列です。他に何かありますか？第二-文書クラスタリング手順における彼らの役割は何ですか？これまで読んだことから、それらの目的は次元の削減、ノイズの削減、表現間の用語間の関係の組み込みであると推測します。PCAまたはLSAを実行した後、k-meansやagglomerative methodなどの従来のアルゴリズムが縮小タームスペースに適用され、コサイン距離などの一般的な類似度が使用されます。私が間違っている場合は修正してください。第三-PCA / LSAを適用する前にTF / IDF項ベクトルを正規化するかどうかは重要ですか？そして、その後、再び正規化する必要がありますか？ 4番目-LSA / PCAによって削減された用語スペースでクラスタリングを実行したとしましょう。次に、結果クラスターにラベルをどのように割り当てる必要がありますか？寸法は実際の単語に対応していないため、かなり難しい問題です。私の頭に浮かぶ唯一のアイデアは、元の用語ベクトルを使用して各クラスターの重心を計算し、上位の重みを持つ用語を選択することですが、あまり効率的ではありません。この問題の特定の解決策はありますか？何も見つかりませんでした。これらの問題を明確にしてくれてとても感謝しています。

25 clustering pca data-mining svd lsa

1

Calinski＆Harabasz（CH）基準の許容値は何ですか？

Rとkmlパッケージを使用して縦断データをクラスター化しようとするデータ分析を行いました。私のデータには、約400の個別の軌跡が含まれています（この論文で呼ばれています）。次の図に私の結果を見ることができます。対応する論文の 2.2章「最適なクラスター数の選択」を読んだ後、答えが得られませんでした。3つのクラスターを使用することをお勧めしますが、結果は80のCHでまだOKです。実際、CH値が何を表すかさえわかりません。だから私の質問、Calinski＆Harabasz（CH）基準の許容値は何ですか？

25 r clustering panel-data

タグ付けされた質問 「clustering」

タグ付けされた質問「clustering」