タグ付けされた質問 「clustering」

クラスター分析は、クラスラベルなどの既存の知識を使用せずに、相互の「類似性」に従ってデータをオブジェクトのサブセットに分割するタスクです。[clustered-standard-errorsおよび/またはcluster-samplesはそのようにタグ付けする必要があります。それらには「クラスタリング」タグを使用しないでください。]

1
期待の最大化の明確化
EMアルゴリズムに関する非常に役立つチュートリアルを見つけました。 チュートリアルの例と写真は単に見事です。 確率の計算に関する関連質問期待値の最大化はどのように機能しますか? チュートリアルで説明されている理論を​​例にどのように接続するかについて、別の質問があります。 Eステップ中に、EMは、どこでもを下回る関数を選択しますこの関数は、。gtgtg_tログP(x ; Θ )log⁡P(x;Θ)\log P(x;\Theta)gt(Θ^(t ))= ログP(x ; Θ^(t ))gt(Θ^(t))=log⁡P(x;Θ^(t))g_t( \hat{\Theta}^{(t)}) = \log P(x; \hat{\Theta}^{(t)}) したがって、この例のは、反復ごとに異なるように見えます。gtgtg_t さらに、例ではとをデータに適用すると、得られますおよび。私にとっては直観に反するように見えます。以前にいくつかの仮定があり、それをデータに適用して新しい仮定を取得したため、データは何らかの形で仮定を変更しました。がと等しくない理由がわかりません。 Θ (0 ) B =0.5 Θ (1 ) A =0.71 Θ (1 ) B =0.58 Θ(0) Θ(1)Θ^(0 )あ= 0.6Θ^A(0)=0.6\hat{\Theta}_A^{(0)} = 0.6Θ^(0 )B= 0.5Θ^B(0)=0.5\hat{\Theta}_B^{(0)} = 0.5Θ^(1 )あ= 0.71Θ^A(1)=0.71\hat{\Theta}_A^{(1)} = 0.71Θ^(1 …

3
ニューマンのネットワークモジュール性は、署名された重み付きグラフで機能しますか?
グラフのモジュール性は、ウィキペディアのページで定義されています。異なるポスト、誰かが隣接行列ので、そのモジュールを容易に重み付けネットワークについて計算(および最大化)することができる説明同様に価値の関係を含むことができます。ただし、これが、たとえば-10〜+10の範囲の符号付きの値付きエッジでも機能するかどうかを知りたいのですが。この問題について、直感、証明、または参照を提供できますか?AijAijA_{ij}

1
クラスター検証の情報のバリエーション(VI)メトリックの背後にある直感は何ですか?
私のような非統計学者にとっては、VIMarina Meliaの関連する論文「クラスタリングの比較-情報に基づく距離」(Journal of Multivariate Analysis、2007)を読んだ後でも、メトリック(情報の変動)のアイデアを捉えることは非常に困難です。実際、私はそこにあるクラスタリングの用語の多くに精通していません。 以下はMWEです。使用されるさまざまなメトリックで出力が何を意味するか知りたいのですが。私はこれらの2つのクラスターをR内に同じIDの順序で持っています: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, …

2
縦断的データからグループ化(軌跡)を見つける方法は?
環境 質問を少し拡張する前に、シーンを設定したいと思います。 私は縦断的なデータを持ち、約3か月ごとに被験者を測定しました。主な結果は5から14の範囲の数値(連続1dpまで)であり、(すべてのデータポイントの)バルクは7から10の間です。スパゲッティプロット(x軸に年齢があり、各人の線が表示されている)は、1500を超える被験者がいるため明らかに混乱していますが、年齢が高くなると値が高くなる傾向があります(これは既知です)。 幅広い質問:まず、トレンドグループ(高いレベルから始まり高いレベルに留まっているグループ、低いレベルから低いレベルに留まっているグループ、低いレベルから始まって高いレベルに上昇しているグループなど)を特定してから、 「トレンドグループ」のメンバーシップに関連する個々の要素を確認します。 ここでの私の質問は、特に最初の部分、傾向によるグループ化に関係しています。 質問 個々の縦軌道をどのようにグループ化できますか? これを実装するにはどのソフトウェアが適していますか? SASのProc Trajと同僚が提案したM-Plusを調べましたが、他の考えについて知りたいと思います。

4
k-meansに最適なkがない場合はありますか?
これは少なくとも数時間は私の心の中にありました。(平均余弦類似度メトリックを使用して)k平均アルゴリズムからの出力に最適なkを見つけようとしていたため、クラスターの数の関数として歪みをプロットすることになりました。私のデータセットは、600次元空間にある800個のドキュメントのコレクションです。 私が理解していることから、この曲線のニーポイントまたはエルボーポイントを見つけると、少なくともデータを入れる必要があるクラスターの数がほぼわかります。下にグラフを載せます。赤い縦線が引かれた点は、最大二次導関数検定を使用して取得されました。これをすべて行った後、私はもっと単純なものに行き詰まりました。このグラフはデータセットについて何を教えてくれますか? クラスタリングする価値がないこと、ドキュメントの構造が不足していること、または非常に高いkを設定する必要があることを教えてくれますか?奇妙なことの1つは、kが低い場合でも、同様のドキュメントがクラスター化されているので、なぜこの曲線が得られるのかわかりません。何かご意見は?

5
名目変数/循環変数のSOMクラスタリング
名目上の入力のクラスタリングに精通している人がいるかどうか疑問に思っています。私はソリューションとしてSOMを検討してきましたが、どうやらそれは数値機能でのみ機能します。カテゴリ機能の拡張機能はありますか?具体的には、「Days of the Week」が可能な機能として考えていました。もちろん、数値特徴に変換することも可能です(つまり、月-日が1〜7に対応)。ただし、太陽と月(1&7)の間のユークリッド距離は、月から火(1&2)までの距離と同じではありません。 )。どんな提案やアイデアも大歓迎です。

2
2Dでの多次元データ(LSI)の視覚化
潜在的なセマンティックインデックスを使用して、ドキュメント間の類似点を見つけています(JMSに感謝します) 次元を削減した後、ドキュメントをクラスターにグループ化するためにk平均クラスタリングを試しましたが、これは非常にうまく機能します。しかし、少し先に進んで、ドキュメントをノードのセットとして視覚化します。ここで、任意の2つのノード間の距離は、類似性に反比例します(非常に類似しているノードは互いに接近しています)。 データが2次元を超えるため、類似度行列を2次元のグラフに正確に縮小できないことに不思議に思います。だから私の最初の質問:これを行う標準的な方法はありますか? データを2次元に削減してから、それらをX軸とY軸としてプロットできますか?それは、100から200までのドキュメントのグループに対して十分でしょうか?これが解決策である場合、データを最初から2次元に削減する方が良いですか、それとも多次元データから2つの「最良の」次元を選択する方法はありますか? 私はPythonとgensimライブラリを使用しています。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
巨大なバイナリデータセットをいくつかのカテゴリにクラスター化するには、どのアルゴリズムを使用する必要がありますか?
バイナリデータの大規模な(650K行* 62列)行列(0-1エントリのみ)があります。マトリックスはほとんどスパースです。約8%が満たされます。 それを5つのグループにクラスター化したいと思います。たとえば、1から5までの名前が付けられています。階層的クラスター化を試みましたが、サイズを処理できませんでした。長さ62の650Kビットベクトルを考慮して、ハミング距離ベースのK平均クラスタリングアルゴリズムも使用しました。これらのいずれでも適切な結果が得られませんでした。 助けてください。

1
クラスター分析で変数に重みを割り当てる
クラスター分析で変数に異なる重みを割り当てたいのですが、私のプログラム(Stata)にはこのオプションがないようです。そのため、手動で行う必要があります。 4つの変数A、B、C、Dを想像してください。これらの変数の重みは w(A)=50% w(B)=25% w(C)=10% w(D)=15% 次の2つの方法のいずれかで実際にうまくいくかどうか疑問に思っています。 最初に、すべての変数を標準化します(たとえば、範囲で)。次に、各標準化変数に重みを掛けます。次に、クラスター分析を行います。 すべての変数に重みを掛けて、後で標準化します。次に、クラスター分析を行います。 それとも両方のアイデアは完全にナンセンスですか? [編集] 使用したいクラスタリングアルゴリズム(3種類を試してみます)は、k平均、加重平均リンケージ、および平均リンケージです。加重平均リンケージを使用して、後でk-meansにプラグインするクラスターの適切な数を決定する予定です。
11 clustering  stata 

3
クラスター解を評価するための2つのガウス混合の間の距離
さまざまなクラスタリング手法を比較するためのクイックシミュレーションを実行していますが、現在、クラスタソリューションを評価しようとする障害にぶつかっています。 私はさまざまな検証メトリックスを知っています(Rのcluster.stats()に多くあります)が、クラスターの推定数が実際のクラスターの実際の数と等しい場合、それらが最もよく使用されると思います。元のシミュレーションでクラスターの正しい数が指定されていない場合に、クラスターソリューションのパフォーマンスを測定する機能を維持したい(つまり、4クラスターを持つようにシミュレーションされた3つのクラスターソリューションモデルデータがどれだけうまく機能するか)解決)。参考までに、クラスタは同じ共分散行列を持つようにシミュレーションされます。 ガウス分布の2つの混合物間のKLダイバージェンスは実装に役立つと思いましたが、閉形式のソリューションは存在せず(Hershey and Olson(2007))、モンテカルロシミュレーションの実装は計算コストがかかり始めています。 (たとえ近似であっても)実装が簡単な他の解決策はありますか?

2
ソートされたデータのコレクションを「インテリジェントに」ビンに入れる方法は?
ソートされたコレクションをインテリジェントにビンに入れようとしています。個のデータのコレクションがあります。しかし、私はこのデータが不等サイズのビンに収まることを知っています。データを適切に合わせるためにエンドポイントをインテリジェントに選択する方法がわかりません。例えば:mんnnメートルmm コレクションに12個のアイテムがあり、データが3つのビンに収まることがわかっているとします。 Index: 1 2 3 4 5 6 7 8 9 10 11 12 Value: 1 1 1 3 3 3 3 3 3 5 5 6 i = \ {1-3 \}、\ {4-9 \}、\ {10-12 \}のビンのブレークポイントをインテリジェントに選択するにはどうすればよいi = { 1 − 3 } 、{ 4 − 9 } 、{ 10 …

4
k-meansの実装をどのようにテストしますか?
免責事項:この質問をStackoverflowに投稿しましたが、このプラットフォームにはこれがより適していると思いました。 多次元データセットの独自のk-means実装をどのようにテストしますか? データに対して既存の実装(つまり、Matlab)を実行し、結果を私のアルゴリズムと比較することを考えていました。しかし、これには両方のアルゴリズムがほぼ同じように機能する必要があり、2つの結果の間のマッピングはおそらく簡単ではありません。 もっと良いアイデアはありますか?

2
共分散行列を作る変数間の距離とは何ですか?
私が持っているの共分散行列をとに区分変数にしたいk個使用してクラスタ階層的クラスタリングを(例えば、共分散行列をソートします)。n×nn×nn \times nkkk 変数間(つまり、正方共分散行列の列/行間)の典型的な距離関数はありますか? それとももっとある場合、そのトピックに関する良い参考資料はありますか?

2
非常に歪んだカウントデータのクラスタリング:実行するための提案(変換など)?
基本的な問題 これが私の基本的な問題です。非常にゆがんだ変数とカウントを含むデータセットをクラスター化しようとしています。変数には多くのゼロが含まれているため、私のクラスタリング手順(K平均アルゴリズムの可能性が高い)ではあまり情報がありません。 細かいことは、平方根、ボックスコックス、または対数を使用して変数を変換するだけです。しかし、私の変数はカテゴリー変数に基づいているので、(カテゴリー変数の1つの値に基づいて)変数を処理し、他の変数(カテゴリー変数の他の値に基づいて)をそのままにして、バイアスを導入するのではないかと心配しています。 。 もう少し詳しく見ていきましょう。 データセット 私のデータセットはアイテムの購入を表します。アイテムには、たとえば色:青、赤、緑など、さまざまなカテゴリがあります。購入は、たとえば顧客ごとにグループ化されます。これらの各顧客は、データセットの1行で表されるため、顧客に対する購入を何らかの方法で集計する必要があります。 私がこれを行う方法は、アイテムが特定の色である購入の数を数えることです。だからではなく、単一の変数のcolor、私は三つの変数で終わるcount_red、count_blueとcount_green。 以下に例を示します。 ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 | …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.