タグ付けされた質問 「clustering」

クラスター分析は、クラスラベルなどの既存の知識を使用せずに、相互の「類似性」に従ってデータをオブジェクトのサブセットに分割するタスクです。[clustered-standard-errorsおよび/またはcluster-samplesはそのようにタグ付けする必要があります。それらには「クラスタリング」タグを使用しないでください。]

3
階層的クラスタリングでマンハッタン距離をワードのクラスター間リンケージで使用しても大丈夫ですか?
階層的クラスタリングを使用して、時系列データを分析しています。私のコードはMathematica関数を使用して実装さDirectAgglomerate[...]れ、次の入力が与えられると階層クラスターを生成します: 距離行列D クラスタ間リンケージを決定するために使用されるメソッドの名前。 マンハッタン距離を使用して距離行列Dを計算しました: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| ここで、およびは、時系列のデータポイントの数です。i=1,⋯,ni=1,⋯,ni = 1,\cdots, nn≈150n≈150n \approx 150 私の質問は、ウォードのクラスター間リンケージをマンハッタン距離行列で使用しても大丈夫ですか?一部の情報源は、ウォードのリンケージはユークリッド距離でのみ使用されるべきだと示唆しています。 DirectAgglomerate[...]元の観測値ではなく、距離行列のみを使用してウォードのリンケージを計算することに注意してください。残念ながら、Mathematicaが Wardの元のアルゴリズムをどのように変更するかわかりません。これは、クラスター平均に関して計算された観測値の誤差の平方和を最小化することで機能しました。たとえば、単変量観測のベクトルで構成されるクラスターccc場合、Wardは誤差の平方和を次のように定式化しました。 (∑j||cj−mean(c)||2)2(∑j||cj−mean(c)||2)2(\sum_j||c_j - mean(c)||_2)^2 (MatlabやRなどの他のソフトウェアツールも、距離行列のみを使用してWardのクラスタリングを実装しているため、問題はMathematicaに固有のものではありません。)

1
クラスタリング:Jensen-Shannon Divergenceまたはその正方形を使用する必要がありますか?
Affinity Propagationアルゴリズムを使用して確率分布をクラスタリングしており、距離メトリックとしてJensen-Shannon Divergenceを使用する予定です。 JSD自体を距離として使用するのは正しいですか、それともJSDの2乗ですか?どうして?どちらを選択するとどのような違いが生じますか?

1
純度の計算方法は?
クラスター分析では、純度をどのように計算しますか?方程式は何ですか? 私は私のためにそれを行うためのコードを探していません。 してみましょうクラスタK、となるC jの BEクラスj。ωkωk\omega_kcjcjc_j 純度は実質的に正確ですか?サンプルサイズ全体でクラスターごとに真に分類されたクラスの量を合計しているようです。 方程式のソース 問題は、出力と入力の関係は何ですか? Truly Positive(TP)、Truly Negative(TN)、False Positive(FP)、False Negative(FN)がある場合。それである?Purity=TPK(TP+TN+FP+FN)Purity=TPK(TP+TN+FP+FN)Purity = \frac{TP_K}{(TP+TN+FP+FN)}
15 clustering 

3
クラスタリングのデータ出力をプロットする方法は?
一連のデータ(一連のマーク)をクラスタリングしてみて、2つのクラスターを得ました。グラフィカルに表現したいと思います。私は(x、y)座標を持っていないので、表現について少し混乱しています。 そのためのMATLAB / Python関数も探しています。 編集 データを投稿すると、質問がより明確になると思います。Pythonでkmeansクラスタリングを使用して(scipyを使用せずに)作成した2つのクラスターがあります。彼らです class 1: a=[3222403552.0, 3222493472.0, 3222491808.0, 3222489152.0, 3222413632.0, 3222394528.0, 3222414976.0, 3222522768.0, 3222403552.0, 3222498896.0, 3222541408.0, 3222403552.0, 3222402816.0, 3222588192.0, 3222403552.0, 3222410272.0, 3222394560.0, 3222402704.0, 3222298192.0, 3222409264.0, 3222414688.0, 3222522512.0, 3222404096.0, 3222486720.0, 3222403968.0, 3222486368.0, 3222376320.0, 3222522896.0, 3222403552.0, 3222374480.0, 3222491648.0, 3222543024.0, 3222376848.0, 3222403552.0, 3222591616.0, 3222376944.0, 3222325568.0, 3222488864.0, 3222548416.0, 3222424176.0, 3222415024.0, 3222403552.0, …

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

2
クラスタリングのディリクレプロセス:ラベルの扱い方
Q: Dirichletプロセスを使用してデータをクラスタリングする標準的な方法は何ですか? Gibbsサンプリングを使用すると、サンプリング中にクラスターが表示され、消えます。また、事後分布はクラスターの再ラベル付けに対して不変であるため、識別可能性の問題があります。したがって、どちらがユーザーのクラスターであるかを言うことはできませんが、2人のユーザーが同じクラスターに属していると言えます(つまり、p (c私= cj)p(c私=cj)p(c_i=c_j))。 クラスの割り当てを要約して、がポイントiのクラスター割り当てである場合、c i = c jだけでなくc i = c j = c j =になるようにできます。。。= c z?c私c私c_i私私ic私= cjc私=cjc_i=c_jc私= cj= cj=。。。= czc私=cj=cj=。。。=czc_i=c_j=c_j=...=c_z これらは私が見つけた選択肢であり、それらが不完全または見当違いだと思う理由です。 (1)DP-GMM + Gibbsサンプリング+ペアベースの混同行列 クラスタリングにディリクレプロセスガウス混合モデル(DP-GMM)を使用するために、著者がギブスサンプリングを使用した密度推定のためのDP-GMMを提案するこの論文を実装しました。 クラスタリングのパフォーマンスを調査するために、彼らは次のように述べています。 コンポーネントの数は[MCMC]チェーンで変化するため、チェーン全体で同じコンポーネントに割り当てられる各データペアの頻度を示す混同マトリックスを作成する必要があります。図6を参照してください。 短所:これは実際の「完全な」クラスタリングではなく、ペアワイズクラスタリングです。実際のクラスターを知っており、それに応じてマトリックスを配置しているため、この図は見栄えがします。 (2)DP-GMM + Gibbsサンプリング+何も変化しないサンプル 私は検索してきましたが、ギブスサンプラーを使用してディリクレプロセスに基づいてクラスタリングを行うと主張する人がいます。たとえば、この投稿では、クラスターの数または平均のいずれにも変化がなくなったときにチェーンが収束し、そこから要約を取得すると考えています。 短所:私が間違っていなければ、これが許可されているかどうかわかりません: (a)MCMC中にラベルが切り替えられる場合があります。 (b)定常分布であっても、サンプラーは時々クラスターを作成できます。 (3)DP-GMM + Gibbsサンプリング+最も可能性の高いパーティションのサンプルを選択 この論文では、著者は次のように述べています。 「バーンイン」期間の後、IGMMの事後分布からの偏りのないサンプルをギブスサンプラーから引き出すことができます。ハードクラスタリングは、このようなサンプルを多数描画し、クラスインジケーター変数の結合尤度が最も高いサンプルを使用することで見つけることができます。M. Mandelによって作成された修正IGMM実装を使用します。 短所:これが割り当てをサンプリングするだけのCollapsed Gibbs Samplerでない限り、計算できますが、周辺のp (c)は計算できません。(代わりに、最高のp (c、θ …

2
k-means vs k-median?
k-meansクラスタリングアルゴリズムとk-medianがあることを知っています。1つはクラスターの中心として平均を使用し、もう1つは中央値を使用します。私の質問は次のとおりです。いつ、どこで使用しますか?

2
数値データをグループ化して「ブラケット」を自然に形成するにはどうすればよいですか?(例、収入)
以下は私が達成しようとしていることを説明していますが、代替の問題ステートメントが私の目標を説明する可能性があります。 したい 次の数値をグループに分割します。各グループ内の数値の分散が大きすぎず、グループの平均の差が小さすぎないようにします 最終的に得られた分布を「完全な」分布と比較し、それが完全であることと「異なる」ことを確認します。 レイマンの目標の説明 私は所得分布を計算し、各集団の「所得ブラケット」を決定しようとしています。所得ブラケットは、入力データに基づいて自己調整することになっています。 私の目標は、最終的に所得階層間の差を測定または計算することです。多くのブラケットがあると仮定し、各層がどの程度「離れている」かを確認したいと思います。 人口20人、総収入3587のサンプルセットの時間給のサンプルは次のとおりです。 Population= 10 pop=2 population=5 population =3 10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900 数学的概念を使用して、特定の母集団の所得分布のように機能するデータをグループ化、ソート、分析するにはどうすればよいですか? 計算の最後に、段階的な所得分布を決定します。完全な分布は次のようになります(何か) (each person makes $10 more per hour than the previous; total is 3587) 89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, …

3
他のアルゴリズムの代わりにk-meansを使用するのはなぜですか?
私はk-meansについて調査しましたが、これらは私が得たものです。k-meansは、教師なし学習法を使用して既知のクラスタリングの問題を解決する最も単純なアルゴリズムの1つです。大規模なデータセットで非常にうまく機能します。 ただし、K-Meansには次の欠点もあります。 外れ値とノイズに対する強い感度 非円形のクラスター形状ではうまく機能しません-クラスターの数と初期シード値を事前に指定する必要があります 局所最適を渡す低い能力。 欠点はk-meansの良いところを超えているように見えるので、k-meansには素晴らしいことはありますか。 教えて下さい。

4
クラスターの形状を測定する方法は?
この質問は明確に定義されていないことを知っていますが、一部のクラスターは楕円形であるか、低次元空間にあり、他のクラスターは非線形の形状をしています(2Dまたは3Dの例)。 クラスターの非線形性(または「形状」)の尺度はありますか? 2Dおよび3D空間では、クラスターの形状を見るのは問題ではありませんが、より高次元の空間では形状について何かを言うことは問題です。特に、凸クラスターがどの程度であるかの尺度はありますか? 私はこの質問に対して、人々がクラスターについて話すが、それらを見ることができない他の多くのクラスター化の質問に触発されました(高次元の空間で)。さらに、2D曲線には非線形性の尺度がいくつかあることを知っています。

3
誰かが時系列の類似性を決定するための動的なタイムワーピングについて説明してもらえますか?
私は、時系列を一緒に比較するための動的なタイムワープ測定を把握しようとしています。このような3つの時系列データセットがあります。 T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, 0.000622665006227, 0.00036075036075, 0.00029057097196, 0.000353232073472, 0.000394710874285, 0.000207555002076, 0.000402738622634, 0, 0.000309693403531, 0.000506521463847, 0.000226988991034, 0.000414164423276, 9.6590360282e-05, 0.000476689865573, 0.000377572210685, 0.000378967314069, 9.25240562546e-05, 0.000172309813044, 0.000447627573859, …

8
機械学習の「ホットアルゴリズム」とは何ですか?
これは、機械学習を学び始めた人からの素朴な質問です。私は最近、マースランドの本「機械学習:アルゴリズムの視点」を読んでいます。入門書としては便利だと思いますが、現在、最高の結果を出している高度なアルゴリズムについて説明します。私は主にバイオインフォマティクスに興味があります。生物学的ネットワークのクラスター化と生物学的配列のパターンの発見、特に一塩基多型(SNP)分析に適用されます。レビューや本を読むことをお勧めしてもらえますか?

3
クラスタリングの
誰もがL 2ではなく、またはL .5メトリックをクラスタリングに使用していますかL1L1L_1L.5L.5L_.5L2L2L_2ますか? Aggarwal et al。、 高次元空間での距離メトリックの驚くべき振る舞いについて (2001年) は、ユークリッド距離計量よりも一貫して好ましい L1L1L_1、高次元データマイニングアプリケーションで L 2L2L2L_2 そして、L.5L.5L_.5またはがさらに優れているました。L.1L.1L_.1 L 1を使用する理由L1L1L_1または、理論的または実験的である可能性があります。たとえば、外れ値/カバンの論文に対する感度、または実際のデータまたは合成データで実行されるプログラムです(再現可能)。例や写真は、私の素人の直感を助けるでしょう。L.5L.5L_.5 この質問は、ボブ・デュラントの回答に対するフォローアップです When-is-nearest-neighbor-meaningful-todayです。彼が言うように、の選択はデータとアプリケーションの両方に依存します。それにもかかわらず、実際の経験のレポートは有用でしょう。ppp 6月7日火曜日に追加されたメモ: 私は、「L1-ノルムおよび関連する方法に基づく統計データ分析」、Dodge ed。、2002、454p、isbn 3764369205 —多数の会議論文に出くわしました。 誰でもiid指数関数の距離集中を分析できますか?指数関数の1つの理由は ; 別の(専門家ではない)は、最大エントロピー分布が 0 以上であることです。3つ目は、一部の実際のデータセット、特にSIFTはほぼ指数関数的に見えることです。|exp−exp|∼exp|exp−exp|∼exp|exp - exp| \sim exp≥≥\ge

9
クラスタリング用の視覚化ソフトウェア
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 〜22000ポイントをクラスター化します。多くのクラスタリングアルゴリズムは、高品質の初期推測でより適切に機能します。データの大まかな形状を把握できるツールは何ですか? 自分の距離メトリックを選択できるようにしたいので、ペアワイズ距離のリストをフィードできるプログラムは問題ありません。ディスプレイ上の領域またはクラスターをハイライトし、その領域にあるデータポイントのリストを取得するようなことをしたいと思います。 フリーソフトウェアが望ましいですが、SASとMATLABを既に持っています。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.