統計とビッグデータ clustering

4

私は、データをクラスター化するためのディリクレプロセスを実装および学習しようとしています（または機械学習の人々が話すように、密度を推定しています）。私はこのトピックについてたくさんの紙を読み、アイデアを思いつきました。しかし、私はまだ混乱しています。ここに一連の質問があります 1）中華レストランモデルとDPの違いは何ですか？2）無限混合モデルとDPの違いは何ですか？すべてを完全に理解するために、中華レストランモデル、Polya Urnモデル、スティック破壊を実装しました。しかし、DPを最初から実装するのは難しいことのようです。Python、R、Matlabを読み書きできます。 1）DPを完全に理解/機能/開発するために読んで改善することをお勧めするコードはありますか？2）私の調査によると、ディリクレプロセスのコードは読みやすくありませんでした。本当に長くて長い（おそらく、明快さよりも効率がより重要であったため）。3）ただし、無限混合モデルには、ディリクレプロセスよりも多くのコードがあります。これらの2つの方法が互いに遠くない場合、IMMを使用できますか？！基本的に、私は新しいモデルを構築したいのですが、車輪を作り直したくありません。コメントありがとうございます多くの人が「ノンパラメトリックベイとDPを使用した無限混合モデル」に関するEdwin Chenのチュートリアルを推奨しているため、更新してください。このチュートリアルには誤解を招くタイトルがあります。DP、特異度、CPR、スティック破壊、Polya-Urnモデルのさまざまな表現のみをカバーしています。そして最後に、彼はscikitのMixture Modelを使用して、各クラスターでいくつかのヒストグラムを作成しています。

11 machine-learning clustering dirichlet-process

1

U-Matrixを自動的にクラスター化する方法は？

自己組織化マップをトレーニングした後、U-Matrixを計算できます。手動で視覚化してクラスターを特定するツールはいくつかありますが、このプロセスを自動で実行するアルゴリズムがあるかどうか（つまり、人間が図を見てクラスターを特定できないか）は疑問です。これを行う方法はありますか？私はRでコードを書いています。インターネット上ではそのようなものは何も見つかりません。そのため、誰かがここで手助けしてくれるかもしれません。

10 clustering image-processing self-organizing-maps

3

K平均クラスタリングを初期化する方法

K-meansの初期シード（クラスターセンター）を選択するための最新の技術に興味があります。グーグルは2つの一般的な選択肢につながります。初期シードのランダム選択、および KMeans ++選択手法の使用：Arthur＆Vassilvitskii 2006 k-means ++：注意深いシードの利点ここで誰もが知っている他の有望な方法はありますか？

10 clustering k-means

3

多剤使用の研究をしています。私は400人の麻薬常用者のデータセットを持っています。10種類以上の薬物が存在するため、可能な組み合わせは大きくなります。私はそれらが消費する薬物の大部分をバイナリ変数に再コード化しました（つまり、薬物中毒者がヘロインを乱用した場合、ヘロインは1で、それ以外は0です）。2つまたは3つの薬物の人気のある、または一般的な組み合わせを見つけたいのですが。使用できる統計的方法はありますか？

10 hypothesis-testing clustering combinatorics association-measure association-rules

1

GAP統計をどのように解釈すればよいですか？

GAP統計を使用してRのk個のクラスターを推定しました。しかし、それをうまく解釈できるかどうかはわかりません。上記のプロットから、私は3つのクラスターを使用する必要があると想定しています。 2番目のプロットから、6つのクラスターを選択する必要があります。GAP統計の正しい解釈ですか？私はどんな説明にも感謝します。

10 clustering

1

合計ssとss間の意味は、k平均クラスタリングで何を意味しますか？

クラスター分析は初めてです。私はk-meansクラスタリングにRを使用していますが、それらは何なのでしょうか。そして、それらの比率が小さいか大きい場合はどうすればよいですか？

10 clustering

2

ノンパラメトリッククラスタリングのPyMC：ガウス混合のパラメーターを推定するディリクレプロセスがクラスター化に失敗する

問題のセットアップ私がPyMCに適用したい最初のおもちゃの問題の1つは、ノンパラメトリッククラスタリングです。いくつかのデータを指定して、ガウス混合としてモデル化し、クラスターの数と各クラスターの平均と共分散を学習します。この方法について私が知っていることのほとんどは、2007年頃のマイケルジョーダンとイーワイテによるビデオ講義（スパースが大流行する前）と、Fonnesbeck博士とE. Chen博士のチュートリアル[fn1]、[ fn2]。しかし、問題はよく研究されており、信頼できる実装がいくつかあります[fn3]。このおもちゃの問題では、1次元ガウスから10回の描画を生成し、から40回の描画を生成します。以下に見られるように、どのサンプルがどの混合成分からのものであるかを簡単に見分けられるように、ドローをシャッフルしませんでした。N（μ = 4 、σ = 2 ）N(μ=0,σ=1)N(μ=0,σ=1)\mathcal{N}(\mu=0, \sigma=1)N(μ=4,σ=2)N(μ=4,σ=2)\mathcal{N}(\mu=4, \sigma=2) 各データサンプルをに対してモデル化しここで、はこの番目のデータポイントのクラスターを示します。。ここでは、使用される切り捨てられたディリクレプロセスの長さです。私にとって、です。iは= 1 、。。。、50 、Z iは I Z I ∈ [ 1 、。。。、N D P ] N D P N D P = 50yi∼N(μzi,σzi)yi∼N(μzi,σzi)y_i \sim \mathcal{N}(\mu_{z_i}, \sigma_{z_i})i=1,...,50i=1,...,50i=1,...,50ziziz_iiiizi∈[1,...,NDP]zi∈[1,...,NDP]z_i \in [1,...,N_{DP}]NDPNDPN_{DP}NDP=50NDP=50N_{DP}=50 ディリクレプロセスインフラストラクチャを拡張すると、各クラスターIDはカテゴリ確率変数からのドローであり、その確率質量関数はスティック破壊コンストラクトによって与えられます： with for a濃度パラメータ。スティックブレイキングは、最初にに依存する iidベータ分布ドローを取得することにより、合計が1になる -longベクトル構築します。[fn1]を参照してください。そして、データに無知であることを知らせたいので、[fn1]に従い、 0.3、100）と仮定します。、Z I〜C A …

10 bayesian clustering python pymc nonparametric-bayes

2

固定距離内のポイント数を最大にする既知の数の円中心を見つける

指定された距離（）内のポイントの総数を最大化する、指定された数の円の中心（）の中心を見つけたい2次元データのセットがあります。RNNNRRR たとえば、10,000個のデータポイントあり、半径内でできるだけ多くのポイントをキャプチャする円の中心を見つけたいと考えています。5つの中心と10の半径は、データからではなく、あらかじめ与えられています。N = 5 R = 10（X私、Y私）(Xi,Yi)(X_i, Y_i)N= 5N=5N=5R = 10R=10R=10 円内のデータポイントの存在は、バイナリまたは命題のいずれかです。場合、どちらも> 10であるため、値が11単位離れている点と100単位離れている点で差はありません。同様に、円内にある場合も、中心付近と端付近の値は異なります。。データポイントは、いずれかの円の中にあるか外にあります。R = 10R=10R=10 この問題を解決するために使用できる優れたアルゴリズムはありますか？これらはクラスタリング手法に関連しているようですが、平均距離を最小化するのではなく、「距離」関数は、ポイントがポイントのいずれかの内にある場合は0、それ以外の場合は1です。NRRRNNN 私の好みはRでこれを行う方法を見つけることですが、どのようなアプローチでもありがたいです。

10 r clustering distance

1

シルエットの幅が狭いということは、データの基本的な構造がほとんどないということですか？

私はシーケンス分析に不慣れです。最適マッチングに基づく非類似度マトリックスのクラスター分析からの平均シルエット幅（ASW）が低い場合（約25）にどう反応するか疑問に思っていました。シーケンスをクラスター化できるようにする基本的な構造はほとんどないと結論付けるのが適切だと思いますか？クラスター品質の他の測定に基づく低いASWを無視できますか（私は以下にいくつか貼り付けました）。または、シーケンス分析または後続のクラスター分析中に行われた選択が、低いASW値の原因である可能性がありますか？任意の提案をいただければ幸いです。ありがとう。より多くのコンテキストが必要な場合：私は、20代の624シーケンスの労働時間の不一致（つまり、1週間に労働することを好む時間数と実際に労働する時間数の不一致）を調べています。私が調べているすべてのシーケンスの長さは10です。シーケンスオブジェクトには5つの状態があります（M =より多くの時間を必要とし、S =同じ時間を必要とし、F =より少ない時間を必要とし、O =労働力の外、およびU =失業者）。私は、ASWの結果がアプローチの異なる組み合わせによってどのように変化するかを体系的に説明していません。それでも、低および中程度のインデルコスト（最大置換コストの.1および.6-タイミングよりもイベントの順序を重視）およびさまざまなクラスタリング手順（ワード、平均、およびpam）を試しました。私の全体的な印象は、ASWの数値は低いままであるということです。おそらく、ASWの結果が低いことは理にかなっています。私はこれらの州がさまざまな異なる順序で来ることを期待し、州は繰り返すことができます。重複する観測値を削除すると、Nが624から536に低下するだけです。データを調査すると、実際には非常に異なると考えるかなりの多様性とシーケンスがあることがわかります。ミスマッチがあり、ミスマッチがあるかないかの間で前後に振動しました。おそらく、明確に区別されたクラスターの欠如は、興味深いバリエーションの欠如と同じではありません。それでも、クラスターの結果が弱いため、シーケンスを要約する適切な方法がないままになっているようです。 indelを置換コスト2の.1に設定したWardの方法の結果これらの統計は、6クラスターソリューションが良いことを示唆しているようです。ただし、ASWは低くなります。少なくとも、適切な数のクラスターがあるソリューションの場合（2または3は少なすぎる）です。 PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14 cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17 cluster4 0.54 0.74 0.71 0.25 0.25 …

10 clustering traminer

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

一次マルコフ連鎖のクラスターの評価

数千の一次マルコフ連鎖のデータセットを約10個のクラスターにクラスター化しました。これらのクラスターを評価し、クラスター内のアイテムが共有しているアイテムを見つけ、他のクラスターとどのように異なるかを知るための推奨される方法はありますか？したがって、「クラスターAのプロセスは、いったんそこに到達すると状態Yに留まる傾向がありますが、他のクラスターのプロセスには当てはまりません」のようなステートメントを作成できます。それらのマルコフ連鎖の遷移行列は大きすぎて、単に「見て」見ることはできません。それが役立つ場合、それらは比較的まばらです。私のアイデアは、クラスター内のすべての遷移行列を取り、それらを合計し、それを画像の強度として（0〜255のスケールで）プロットすることでした。私が試すべきもっと「プロフェッショナル」なものはありますか？

10 data-visualization clustering markov-process

2

「類似した」ソースコードのクラスターを検出する

コンピューターサイエンスプロジェクトを行う必要のある400人の学生（大規模な大学の学生）がいて、彼らは（学生のグループではなく）一人で作業する必要があると仮定します。プロジェクトの例としては、「Fortranでの高速フーリエ変換アルゴリズムの実装」が挙げられます（これはセクシーに聞こえませんが、質問が簡単になります）。私は修正者であり、「本当に独立して書くにはあまりにも類似している」実装を提案している学生のグループがあるかどうかを確認するルーチンを送信したいと思います。これは、クラスターの教師なし検索です。問題は、使用するクラスタリングアルゴリズムではなく、使用する属性に関するものだと思います。最初に行うのは、文字ごとのヒストグラムです。理想的には、詐欺師はそれより賢いので、最終的には文字のランダムな順列を選び、文字のヒストグラム（順列を含む）の適切な一致が存在するかどうかを確認します。また、それらはコードの構造を探求せず、文字の周辺分布のみを探索します...どのような解決策がありますか？その問題専用の既存のソフトウェアまたはパッケージはありますか？（実際、私の昔、コンピュータサイエンスの教師は、そのようなツールがあったと主張していましたが、今では、非常にシンプルなものがあったと思います）私は、ソフトウェア開発の弁護士もそのような問題を抱えていると思います（1000人の学生ではなく、2つの大きなコードがあるため、事態が難しくなります）。

10 hypothesis-testing clustering

5

ロジスティック回帰のデータを分割する手段としてのクラスタリング

私は、ロジスティック回帰モデルのいくつかの機能に基づいて、学生の成功または失敗を予測しようとしています。モデルのパフォーマンスを向上させるために、明らかな違いに基づいて学生を複数のグループに分割し、各グループに個別のモデルを構築することをすでに考えました。しかし、これらのグループを試験で特定するのは難しいかもしれないと思うので、生徒の特徴をクラスタリングして、生徒を分割することを考えました。これは、そのようなモデルを構築する際の一般的な方法ですか？それを明白なグループに分けて（たとえば、最初の学期の生徒と帰国の生徒）、それらのグループでクラスタリングを実行するか、最初からクラスタリングすることを提案しますか？明確にするために：つまり、クラスタリングアルゴリズムを使用して、ロジスティック回帰のトレーニングセットをグループに分割することを検討しています。次に、これらのグループごとに個別のロジスティック回帰を行います。次に、ロジスティック回帰を使用して学生の結果を予測する場合、どのグループに最も適合するかに基づいて、使用するモデルを選択します。おそらく、グループ識別子を含めることで同じことを行うことができます。たとえば、学生が戻ってきた場合は1、戻っていない場合は0などです。これで、母集団ごとに個別のロジスティック回帰モデルを構築するのではなく、トレーニングデータセットをクラスター化し、それらのクラスターラベルをロジスティック回帰の機能として使用する方が有利かどうかについて考えました。帰国生と新入生のグループ識別子を含めると便利な場合は、グループのリストを拡張すると便利でしょうか。クラスタリングは、これを行う自然な方法のようです。それが明確であることを願っています...

10 clustering data-mining logistic

3

ディストリビューションのクラスタリング

複数のディストリビューションがあります（下の図では10のディストリビューション）。実際、これらはヒストグラムです。x軸には70の値があり、これは溶液中のいくつかの粒子のサイズです。xの各値について、対応するyの値は、サイズがxの値に近い粒子の比率です。これらの分布をクラスター化したいと思います。現在私は、例えばユークリッド距離による階層的クラスタリングを使用しています。私は距離の選択に満足していません。Kullback-Leiblerなどの情報理論上の距離を試しましたが、データにゼロが多数あり、これにより問題が発生します。適切な距離や他のクラスタリング方法の提案はありますか？

10 clustering

3

縦断的変数をクラスター化する方法は？

私は、0日目から7日目までの縦断データを含む変数の束を持っています。これらの縦断変数（ケースではない）を異なるグループにクラスター化できる適切なクラスター化アプローチを探しています。このデータセットを時間ごとに個別に分析しようとしましたが、結果を合理的に説明するのはかなり困難でした。 Webサイトに例PROC SIMILARITYがあるため、SAS手順の可用性を調査しました。しかし、私はそれが正しい方法ではないと思います。以前のいくつかの研究では、各時点で探索的因子分析を使用していましたが、不合理な結果のため、これも私の研究ではオプションではありません。うまくいけば、ここでいくつかのアイデアを提供でき、SASやRなどのコンパイル済みプログラムを処理できるようになります。どんな提案でも大歓迎です!! 以下に短い例を示します（データと変数名の位置が一致していないため申し訳ありません）。 id time V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 2 0 8 7 3 7 6 6 0 0 5 2 2 1 3 5 2 6 5 5 1 1 4 2 2 2 2 3 2 4 4 2 0 …

10 clustering

タグ付けされた質問 「clustering」

タグ付けされた質問「clustering」