タグ付けされた質問 「clustering」

クラスター分析は、クラスラベルなどの既存の知識を使用せずに、相互の「類似性」に従ってデータをオブジェクトのサブセットに分割するタスクです。[clustered-standard-errorsおよび/またはcluster-samplesはそのようにタグ付けする必要があります。それらには「クラスタリング」タグを使用しないでください。]

3
スペース効率の良いクラスタリング
私が見たほとんどのクラスタリングアルゴリズムは、すべてのポイント間にeach-to-each距離を作成することから始まります。これは、より大きなデータセットでは問題になります。それをしないものはありますか?それとも、それはある種の部分的/近似的/時差的なアプローチですか? O(n ^ 2)スペースよりも少ないクラスタリングアルゴリズム/実装はどれですか? アルゴリズムのリストとその時間と空間の要件はどこかにありますか?

4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

2
バイクラスタリングの概要
私は、バイクラスターに関するカジュアルなインターネット調査を行っています。(私はWikiの記事を何度か読みました。)これまでのところ、定義や標準的な用語がほとんどないようです。 バイクラスターを見つけるためのアルゴリズムに興味がある人なら誰でも読むべき標準的な論文や本があるのか​​と思っていました。 この分野の最新技術とは何でしょうか。遺伝的アルゴリズムを使用してバイクラスターを見つけるという概念に興味をそそられたので、特に他のアプローチのコンテキストでそのアプローチについてコメントをいただければ幸いです。 通常、クラスタリングの目的は、データセットをグループに分割して、各要素がいくつかのグループに含まれるようにすることです。バイクラスターアルゴリズムは、すべての要素を特定のグループに配置することも試みますか?

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
BICクラスタリング基準の計算(K平均後のクラスターを検証するため)
Rのk平均値出力について、BIC式に基づいてクラスタリング基準を計算する良い方法があるかどうか疑問に思っていますか?他のクラスタリングモデルと比較できるように、そのBICを計算する方法について少し混乱しています。現在、k-meansのstatsパッケージ実装を使用しています。
9 r  clustering  k-means  bic 

1
クラスター数を決定するためのエルボ基準
言及され、ここでデータ・セット内のクラスターの最適数を決定するための方法の一つは、「肘方法」であること。ここで、分散のパーセンテージは、グループ全体の分散に対するグループ間の分散の比率として計算されます。 この計算を理解するのは難しいと感じました。機能マトリックスとして表されたデータセットの分散の割合を計算する方法を説明できますかF∈Rm×nF∈Rm×nF \in \mathbf{R}^{m \times n}、 どこ mmm フィーチャーディメンションであり、 nnnデータポイントの数です。クラスタリングにはk-meansアルゴリズムを使用しています。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

4
負の重みを考慮するグラフクラスタリングアルゴリズム
私は、グラフの値は、範囲[-1,1]であることができる重み付け有向エッジとインスタンス。頂点がより相関しているグループを見つけるために、このグラフでクラスタリングを行う必要があります。 複数のクラスタリングまたはコミュニティ検出グラフベースのアルゴリズムを検索しましたが、負の重みのためにそれらのほとんどが機能しません。これまで、私はスピングラス(igraphライブラリではいわゆるポッツモデルに基づくアルゴリズムです)アルゴリズムを適用しており、正と負の両方の重みで機能するようです。 負および正のエッジの重みを持つグラフでクラスタリングまたはコミュニティ検出を行うための他のアルゴリズムはありますか? 更新:エッジの重みは相関を表し、1は2つの頂点が強く相関していることを意味し、-1は逆相関し、0は独立していることを意味します。

1
クラスター化にLDA over GMMを使用する場合
168次元のユーザーアクティビティを含むデータセットがあり、教師なし学習を使用してクラスターを抽出します。潜在的ディリクレ配分(LDA)でトピックモデリングアプローチを使用するか、ベイジアンアプローチに近いガウス混合モデル(GMM)を使用するかは、私には明らかではありません。その点で私は2つの関連する質問があります: 2つの方法の主な違いは何ですか?私は2つのモデルの基本を知っていますが、実際に一方が他方とどう違うのかについて知りたいです。問題/データの何かが、1つのモデルの方が適しているかどうかを教えてくれますか? 両方の方法をデータに適用した場合、結果を比較してどちらの方法が優れているかを確認するにはどうすればよいですか? 更新 168人のユーザーアクティビティ変数はアクティビティのカウントであり、正の離散値を保持します。そこには、最大値はありませんが、変数の約90%が間隔の値を達成する。[0,3][0,3][0,3] これらのアクティビティ変数のすべてを、それがゼロか非ゼロかを表すバイナリ変数として単純にモデル化することは理にかなっているかもしれませんが、問題を特定するのに十分な知識はまだありません。私たちが探している主なものは、ユーザーアクティビティのさまざまなクラスターへの洞察です。

1
距離行列から重心間の距離を計算する効率的な方法
n点間の2乗ユークリッド距離正方対称行列と、点のクラスターまたはグループメンバーシップ(クラスター)を示すベクトルがあるとします。クラスタはポイントで構成される場合があります。DD\bf Dんんnんんnkkk≥ 1≥1\ge1 何が最も効率的か(速度の点で)本当に効率的な方法クラスタ重心間の計算距離ここでは? これまでのところ、私は常にこの状況で主座標分析を行いました。PCoA、またはTorgersonのMDSは、最初にをスカラー積の行列( "double centering")に変換してから、そのPCAを実行することになります。このようにして、それらがまたがるユークリッド空間の点の座標を作成します。その後は、データを使用する場合と同じように、重心間の距離を通常の方法で簡単に計算できます。PCoAは対称正準半定固有分解またはSVDを実行する必要がありますが、S n S nDD\bf DSS\bf Sんんngrouped points x variablesn x nSS\bf Sんんnかなり大きくなる可能性があります。さらに、このタスクは次元削減ではなく、実際にはこれらの直交する主軸は必要ありません。だから私はこれらの分解が行き過ぎかもしれないと感じています。 だから、あなたは潜在的に高速な方法についての知識やアイデアを持っていますか?

3
隣接行列をクラスター化する最良の方法
結果として得られる隣接行列のクラスターを解釈するのに苦労しました。時系列(ニューラルデータ)の部分相関(zスコア)を含む、サブジェクトを表す比較的大きな200の行列があります。目標は、これらの210のマトリックスをクラスター化し、未発見の潜在的なコミュニティを検出することです。そのため、200x200の隣接行列を生成する別の部分相関計算を行いました。コミュニティ検出アルゴリズム(例:Newmann's)を実行すると、ほとんど解釈できないコミュニティが発生します。 問題は、これらのコミュニティまたはクラスターがまったく重要であるかどうかを判断する、どのような統計的検定ですか?もしそうなら、解釈を解く体系的な方法はありますか?

3
k-meansと他の指標の併用
したがって、これは以前に尋ねられたことに気づきます。たとえば、さまざまな距離メトリックのクラスター分析に関連するユースケースは何ですか?しかし、私は文献で提案されているものとは多少矛盾する答えが可能であることを発見しました。 最近、他のメトリックでkmeansアルゴリズムを使用することについて言及している2つの論文を読んだことがあります。たとえば、文字列間の距離の編集や、分布間の「地球の移動距離」などです。これらの論文は、特にポイントのセットの平均を計算する場合、方法を指定せずに他のメトリックでkmeansを使用することについて言及していることを考えると、おそらく私が選択していない、これに対処するためのいくつかの「標準」方法があることを示唆しています上に。 たとえば、k-meansアルゴリズムをより高速に実装できるこのペーパーを見てください。イントロのパラグラフ4からの引用では、著者は彼のアルゴリズムを「任意のブラックボックス距離メトリックで使用できる」と述べ、次のパラグラフでは具体的な例として編集距離に言及しています。しかし、彼のアルゴリズムは一連の点の平均を計算し、これが他のメトリックスの結果にどのように影響するかについては言及していません(平均が編集距離でどのように機能するかについては特に困惑しています)。 この他のペーパーでは、テキサスホールデム抽象化のためにk-meansを使用してポーカーハンドをクラスター化する方法について説明します。左の列の下部のページ2にジャンプする場合、著者は「そして、k-meansを使用して、ヒストグラムの各ペア間のEarth Mover Distanceを距離メトリックとして使用して、目的のクラスター数で抽象化を計算します。 私はこれらの論文を説明してくれる人を本当に探しているわけではありませんが、他の測定基準でk-meansを使用するための標準的な方法がありませんか?アースムーバーの距離を使用した標準的な平均化はヒューリスティックに機能するように見えますが、編集距離は金型にまったく適合しないようです。私は誰かが与えることができるどんな洞察にも感謝します。 (編集):私は先に進み、アースムーバーの距離(ポーカーペーパーにあるものと同様)を使用して分布ヒストグラムでk平均法を試してみましたが、うまく機能しているようで、出力したクラスターは私のユースケースにかなり適しているように見えました。平均化では、ヒストグラムをベクトルとして扱い、通常の方法で平均化しました。私が気づいたことの1つは、平均までの距離のすべてのポイントの合計が常に単調に減少するとは限らないことです。しかし実際には、単調な問題にもかかわらず、10回以内の反復でローカルの最小値に収まります。これは彼らが2番目の論文で行ったものであると仮定します。残っている唯一の問題は、編集距離のようなものを使用する場合、一体どのように平均するのでしょうか。

1
ノンパラメトリック混合モデルとクラスター
ノンパラメトリック混合アプローチで処理しようと考えているクラスターについて質問があります(私はそう思います)。人間の関わりの説明に取り組んでいます。 私のデータベースの各行には以下が含まれます: 誰かのID 環境Xのいくつかのパラメータ(例:温度、風など) パラメータに対する人の反応を表すバイナリ変数Y(例:天候のために病気になるか、病気にならない)。 私の考え(データではなく直感に基づく)は、有限数のグループに人々を集めて、グループ内の人々が同じように温度に反応できるようにすることです(簡単に病気になる人もいれば、決して病気にならない人もいます...)。 。特定のグループでは、より正式には、パラメーターXを条件とするYの法則は同じです。 Xを条件とするYの法則を知りません。パラメータXについては、必要に応じていくつかの仮説を立てることができます。 パラメータに対する同じ反応を「多かれ少なかれ持っている」人々のクラスタを作成したいと思います。さらに、パラメーターの特定の値に対する特定の人の反応を予測したいと思います(このイベントがデータベースで発生したことがない場合でも)。 (Xi,Yi)(Xi,Yi)(X_i, Y_i)XiXiX_iYiYiY_iXiXiX_i XiXiX_i 私のアプローチは正しいですか? この問題について別の見方をお勧めしますか? 私はそれについてのどんな参考文献にも非常に興味があります。 問題の説明を再定式化するよう私に頼むことを躊躇しないでください。

4
K平均法によって引き起こされる可能性のあるクラスタリング
次の質問を私の試験のテスト問題として取得しましたが、答えを理解できません。 最初の2つの主成分に投影されたデータの散布図を以下に示します。データセットにグループ構造が存在するかどうかを調べます。これを行うには、ユークリッド距離測定を使用してk = 2でk平均アルゴリズムを実行しました。k-meansアルゴリズムの結果は、ランダムな初期条件に応じて、実行間で異なる可能性があります。アルゴリズムを数回実行して、いくつかの異なるクラスタリング結果を得ました。 データに対してk-meansアルゴリズムを実行すると、表示されている4つのクラスタリングのうち3つしか取得できません。k-meansで取得できないものはどれですか?(データについて特別なことは何もありません) 正解はDです。誰かが理由を説明できますか?

2
連続変数とカテゴリ変数が混在するデータのクラスタリング
人間の行動のいくつかの側面を表すデータがあります。私はそれを(監視なしで)ある種の行動プロファイルにクラスター化したいと考えています。現在、私の変数の一部はカテゴリカル(2つ以上のカテゴリを持つ)であり、一部は連続的です(ほとんどはパーセンテージです)。いくつかの変数はさらに複雑で、1つのカテゴリーにはさらに連続的であり、もう1つのカテゴリーにはそのような追加データはありません。 私の質問は、このデータを分類する方法についてです。それを扱う(一般的な?)アプローチは何ですか? コードや何かは必要ありませんが、この課題への対処方法をさらに理解するのに役立つ参照や指示が必要です。 そのRような分析を容易にする関数を知っていれば、それはすばらしいことですが、それは必須ではありません。 ありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.