タグ付けされた質問 「clustering」

クラスター分析は、クラスラベルなどの既存の知識を使用せずに、相互の「類似性」に従ってデータをオブジェクトのサブセットに分割するタスクです。[clustered-standard-errorsおよび/またはcluster-samplesはそのようにタグ付けする必要があります。それらには「クラスタリング」タグを使用しないでください。]

8
クラスタリング品質測定
入力パラメーター(クラスターの数)を使用したクラスタリングアルゴリズム(k-meansではない)があります。クラスタリングを実行した後、このクラスタリングの品質を定量的に測定したいと思います。クラスタリングアルゴリズムには、1つの重要な特性があります。以下のために Iフィード場合結果として、このアルゴリズムにそれらの間の任意の有意な区別なしにデータ点を私が含む一つのクラスタ取得するのデータ点とを有するものクラスタのデータポイントを。明らかにこれは私が望むものではありません。そこで、この品質尺度を計算して、このクラスタリングの合理性を推定したいと思います。理想的には、異なるについてこの測定値を比較することができます。したがって、の範囲でクラスタリングを実行しますk = 2 N N − 1 1 k kkkkk=2k=2k=2NNNN−1N−1N-1111kkkkkk最高の品質のものを選択してください。このような品質尺度を計算するにはどうすればよいですか? 更新: が不適切なクラスタリングである場合の例を次に示します。平面上に正三角形を形成する3点があるとしましょう。これらのポイントを2つのクラスターに分割することは、1つまたは3つのクラスターに分割することより明らかに悪いです。(N−1,1)(N−1,1)(N-1, 1)
17 clustering 

2
Rのノンパラメトリックベイズ分析
R階層型ディリクレプロセス(HDP)(最近人気のノンパラメトリックベイジアン手法の1つ)を使用したデータのクラスタリングに関する優れたチュートリアルを探しています。 ノンパラメトリックベイジアン分析にはDPpackage(IMHO、利用可能なすべての中で最も包括的な)がありますR。しかし、R NewsHDPをコーディングするのに十分なほど、パッケージリファレンスマニュアルまたはパッケージリファレンスマニュアルに記載されている例を理解できません。 任意のヘルプまたはポインタを歓迎します。 トピックモデリング用のHDPのC ++実装はここから入手できます(C ++コードについては下をご覧ください)


1
PythonのJenks Natural Breaks:最適なブレーク数を見つける方法
私が見つかりました。このPython実装のジェンクス自然ブレークのアルゴリズムを、私はそれが私のWindows 7のマシン上で実行させることができます。それは非常に高速で、私のジオデータのサイズを考慮して、数時間で休憩を見つけます。データにこのクラスタリングアルゴリズムを使用する前に、sklearn.clustering.KMeans (ここで)アルゴリズムを使用していました。私がKMeansで抱えていた問題は、最適なK値パラメーターを見つけることでしたが、異なるK値のアルゴリズムを起動し、sklearn.metrics.silhouette_score (ここで)最適なK値を見つけるためにそれを「解決」しました。 私の質問は、Natural Breaksアルゴリズムに5つのクラス(Kとなる)を見つけるように指示した場合、これがデータに最適なクラスの数であることをどのように確認できますか?最適な数の休憩を選択していることを検証する方法は? ありがとう!

3
Wardの基準でない場合、hclust()のward.Dはどのアルゴリズムを実装しますか?
オプション "ward.D"(Rバージョン<= 3.0.3の唯一のWardオプション "ward"と同等)で使用されるものは、Ward(1963)クラスタリング基準を実装しませんが、オプション "ward.D2"はその基準( Murtagh and Legendre 2014)。 (http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html) どうやらward.DはWardの基準を適切に実装していないようです。それにもかかわらず、それが生成するクラスタリングに関しては良い仕事をしているようです。ワードの基準でない場合、method = "ward.D"は何を実装しますか? 参照資料 Murtagh、F.、およびLegendre、P.(2014)。Wardの階層的凝集クラスタリング手法:どのアルゴリズムがWardの基準を実装していますか?Journal of Classification、31(3)、274-295。
16 r  clustering  ward 

5
なぜk-meansはグローバルな最小値を与えないのですか?
k-meansアルゴリズムは局所的な最小値にのみ収束し、グローバルな最小値には収束しないことを読みました。どうしてこれなの?初期化が最終的なクラスタリングにどのように影響するかを論理的に考えることができ、最適でないクラスタリングの可能性がありますが、数学的にそれを証明するものは見つかりませんでした。 また、なぜk-meansは反復プロセスなのですか?目的関数を重心に部分的に区別するだけでは、この関数を最小化する重心を見つけるためにそれをゼロに等しくすることはできませんか?段階的な最小ステップに到達するために勾配降下を使用する必要があるのはなぜですか?

4
1Dデータのクラスタリング
データセットがあり、1つの変数のみに基づいてそのデータにクラスターを作成します(欠損値はありません)。その1つの変数に基づいて3つのクラスターを作成します。 使用するクラスタリングアルゴリズム、k-means、EM、DBSCANなど 私の主な質問は、どのような状況でEMよりもk-meansを使用すべきか、k-meansよりもEMを使用すべきかということです。
16 clustering 

2
次元削減とクラスタリングを組み合わせるのはいつですか?
ドキュメントレベルのクラスタリングを実行しようとしています。用語ドキュメント頻度行列を作成し、k-meansを使用してこれらの高次元ベクトルをクラスタリングしようとしています。直接クラスタリングの代わりに、最初にLSA(潜在意味解析)特異ベクトル分解を適用してU、S、Vt行列を取得し、スクリープロットを使用して適切なしきい値を選択し、縮小行列(特にVtそれは私に良い結果を与えているように思えた概念ドキュメント情報を提供します)。 SVD(特異ベクトル分解)はクラスタリング(コサイン類似性尺度などを使用)であり、SVDの出力にk-meansを適用できるかどうかわからないと言う人もいます。SVDは次元削減手法であり、多数の新しいベクトルを提供するため、論理的に正しいと考えました。一方、k-meansはクラスターの数を入力として受け取り、これらのベクトルを指定された数のクラスターに分割します。この手順に欠陥はありますか、これを改善できる方法はありますか?助言がありますか?

4
クラスター分析の前提
初歩的な質問をおologiesび申し上げますが、私はこの形式の分析は初めてであり、これまでのところ原則の理解は非常に限られています。 多変量/単変量テストのパラメトリックな仮定の多くがクラスター分析に適用されるかどうか疑問に思っていましたか?私がクラスター分析に関して読んだ情報源の多くは、仮定を特定できていません。 観測の独立性の仮定に特に興味があります。私の理解では、この仮定の違反は(たとえば、ANOVAやMAVOVAで)誤差の推定に影響を与えるため、重大であるということです。私のこれまでの読書から、クラスター分析は大部分が記述的な手法であるように思われます(特定の特定のケースでの統計的推論のみを含む)。したがって、独立性や通常の分散データなどの仮定は必要ですか? この問題を説明するテキストの推奨事項は大歓迎です。どうもありがとう。

2
ショートテキストクラスタリングの良い方法は何ですか?
テキストクラスタリングの問題に取り組んでいます。データには複数の文が含まれています。短いテキストで高精度に達する優れたアルゴリズムはありますか? 良い参考資料を提供できますか? KMeans、スペクトルクラスタリングなどのアルゴリズムは、この問題に対してうまく機能しません。

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
テキストマイニング:人工知能でテキスト(ニュース記事など)をクラスター化する方法は?
Pongのプレイ、手書きの数字の分類など、さまざまなタスクのために、いくつかのニューラルネットワーク(MLP(完全接続)、Elman(繰り返し))を構築しました... さらに、複数桁の手書きノートを分類するなど、いくつかの最初の畳み込みニューラルネットワークを構築しようとしましたが、25x25サイズの画像などの標準化された入力に依存できる画像認識/クラスタリングタスクなど、テキストを分析およびクラスター化することはまったく新しいです。 RGBまたはグレースケールなど...前提条件の機能がたくさんあります。 テキストマイニング、たとえばニュース記事の場合、入力のサイズは常に変化しています(異なる単語、異なる文、異なるテキスト長など)。 人工知能、できればニューラルネットワーク/ SOMを利用した最新のテキストマイニングツールをどのように実装できますか? 残念ながら、簡単なチュートリアルを最初から見つけることができませんでした。複雑な科学論文は読みにくく、トピックを学ぶための最良の選択肢ではありません(私の意見では)。MLP、ドロップアウトテクニック、畳み込みニューラルネットワークなどに関するかなりの論文をすでに読んでいますが、テキストマイニングに関する基本的なものを見つけることができませんでした-私が見つけたのは、非常に限られたテキストマイニングスキルにはあま​​りにも高レベルでした。

2
クラスタリングのための混合モデルの適合方法
XとYの2つの変数があり、クラスターを最大(および最適)= 5にする必要があります。変数の理想的なプロットは次のようになります。 このクラスターを5つ作成したいと思います。このようなもの: したがって、これは5つのクラスターを持つ混合モデルだと思います。各クラスターには中心点とその周囲の信頼円があります。 クラスターは必ずしもこのようにきれいであるとは限らず、次のようになります。2つのクラスターが互いに近接している場合や、1つまたは2つのクラスターが完全に欠落している場合があります。 この状況で混合モデルをどのように適合させ、分類(クラスタリング)を効果的に実行できますか? 例: set.seed(1234) X <- c(rnorm(200, 10, 3), rnorm(200, 25,3), rnorm(200,35,3), rnorm(200,65, 3), rnorm(200,80,5)) Y <- c(rnorm(1000, 30, 2)) plot(X,Y, ylim = c(10, 60), pch = 19, col = "gray40")

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
時系列と異常検出
時系列の異常を検出するためのアルゴリズムをセットアップしたいので、そのためにクラスタリングを使用する予定です。 生の時系列データではなく、クラスタリングに距離行列を使用する必要があるのはなぜですか? 異常の検出には、密度ベースのクラスタリング、DBscanとしてのアルゴリズムを使用しますが、この場合、それは機能しますか?データをストリーミングするためのオンラインバージョンはありますか? 異常を発生する前に検出したいので、トレンド検出アルゴリズム(ARIMA)を使用するのが良い選択でしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.