タグ付けされた質問 「clustering」

クラスター分析は、クラスラベルなどの既存の知識を使用せずに、相互の「類似性」に従ってデータをオブジェクトのサブセットに分割するタスクです。[clustered-standard-errorsおよび/またはcluster-samplesはそのようにタグ付けする必要があります。それらには「クラスタリング」タグを使用しないでください。]

5
K-meansの欠点を理解する方法
K-meansは、クラスター分析で広く使用されている方法です。私の理解では、この方法はいかなる仮定も必要とせず、すなわち、データセットと事前に指定されたクラスター数kを与え、二乗誤差の合計(SSE)を最小化するこのアルゴリズムを適用します。エラー。 したがって、k-meansは本質的に最適化の問題です。 k-meansの欠点に関する資料を読みました。それらのほとんどはそれを言う: k-meansは、各属性(変数)の分布の分散が球形であると仮定します。 すべての変数の分散は同じです。 すべてのkクラスターの事前確率は同じです。つまり、各クラスターの観測数はほぼ同じです。 これら3つの仮定のいずれかに違反した場合、k-meansは失敗します。 この声明の背後にある論理を理解できませんでした。k-means法は本質的に仮定をしておらず、SSEを最小化するだけなので、SSEの最小化とこれらの3つの「仮定」の間のリンクはわかりません。

8
ユークリッド距離が高次元で適切なメトリックではないのはなぜですか?
「ユークリッド距離は、高次元では良い距離ではない」と読みました。この声明は次元の呪いと関係があると思いますが、正確には何ですか?また、「高次元」とは何ですか?100個の特徴を持つユークリッド距離を使用して階層的クラスタリングを適用しています。このメトリックを使用しても「安全」な機能はいくつまでありますか?

8
顔画像のデータベースで特定の顔を検出する
私は、Twitterユーザーのプロフィール写真を使用した小さなプロジェクトに取り組んでいます。 私が遭遇した問題は、鮮明なポートレート写真である画像を除くすべてを除外した後、Twitterユーザーのごく少数のかなりの割合がジャスティンビーバーの写真をプロフィール画像として使用することです。 それらを除外するために、写真がジャスティンビーバーのものかどうかをプログラムでどのように判断できますか?

6
クラスタリングアルゴリズムが意味のある結果を生成するのに十分なデータが「クラスター化」されているかどうかを確認する方法
(高次元の)データが十分なクラスタリングを示しているので、kmeansまたは他のクラスタリングアルゴリズムの結果が実際に意味があるかどうかをどのように確認しますか? 特にk-meansアルゴリズムの場合、実際のクラスタリング結果が意味のある(スプリアスではない)ために、クラスター内分散の減少はどれくらい必要ですか? 次元的に縮小された形式のデータをプロットすると、クラスタリングが明らかになります。また、クラスタリングを視覚化できない場合、kmeans(または他の方法)の結果は意味がありませんか?

6
t-SNEの出力のクラスタリング
ノイズの多いデータセットをクラスター化してからクラスター内のサブグループ効果を探すのに便利なアプリケーションがあります。私は最初にPCAを調べましたが、変動の90%に達するには約30のコンポーネントが必要なので、わずか数台のPCでクラスタリングを行うと多くの情報が失われます。 次に、t-SNEを(初めて)試しました。これにより、2次元で奇妙な形が得られ、k-meansを介したクラスタリングに非常に適しています。さらに、結果としてクラスター割り当てを使用してデータでランダムフォレストを実行すると、生データを構成する変数の観点から、問題のコンテキストを考慮して、クラスターがかなり賢明な解釈を持つことがわかります。 しかし、これらのクラスターについてレポートする場合、どのように説明しますか?主成分のK-meansクラスターは、データセットの分散のX%を構成する派生変数に関して、互いに近い個人を明らかにします。t-SNEクラスターについて、同等のステートメントを作成できますか? おそらく次の効果があります: t-SNEは、基礎となる高次元多様体の近似的な連続性を明らかにするため、高次元空間の低次元表現上のクラスターは、隣接する個人が同じクラスターに存在しない「尤度」を最大化します 誰もがそれよりも良い宣伝文句を提案できますか?

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
クラスタリング方法の選択
データセットでクラスター分析を使用して同様のケースをグループ化する場合、多数のクラスタリング手法と距離の測定値から選択する必要があります。場合によっては、1つの選択が他の選択に影響を与える可能性がありますが、多くの方法の組み合わせが可能です。 誰もがさまざまなクラスタリングアルゴリズム/方法と距離測定の選択方法に関する推奨事項を持っていますか?これは、変数の性質(カテゴリまたは数値など)およびクラスタリングの問題とどのように関連していますか?最適なテクニックはありますか?

7
ユークリッド距離は通常、スパースデータには適していませんか?
多次元データとスパースデータがある場合、古典的な距離(ユークリッド距離など)が弱判別性になることをどこかで見ました。どうして?ユークリッド距離がうまく機能しない2つのスパースデータベクトルの例はありますか?この場合、どの類似性を使用する必要がありますか?

6
k-meansクラスタリングアルゴリズムがユークリッド距離メトリックのみを使用するのはなぜですか?
効率または機能性に関して、k-meansアルゴリズムがコサイン(dis)の類似性を距離メトリックとして使用せず、ユークリッドノルムのみを使用できる理由はありますか?一般に、ユークリッド以外の距離が考慮または使用される場合、K-means法は準拠し、正しいですか? [@ttnphnsによる追加。質問は2つあります。「(非)ユークリッド距離」は、2つのデータポイント間の距離、またはデータポイントとクラスター中心間の距離に関係する場合があります。これまでのところ、両方の方法で回答を取り上げようとしました。]

6
樹状図をどこでカットしますか?
階層的なクラスタリングは、樹状図で表すことができます。樹状図を特定のレベルで切断すると、クラスターのセットが得られます。別のレベルでカットすると、クラスターの別のセットが得られます。樹状図をカットする場所をどのように選択しますか?最適なポイントを検討できるものはありますか?樹状図を時間とともに変化させて見た場合、同じポイントでカットする必要がありますか?

5
k-meansクラスタリングとPCAの関係は何ですか?
クラスタリングアルゴリズム(k-meansなど)の前にPCA(主成分分析)を適用するのが一般的な方法です。これにより、実際のクラスタリング結果が改善されると考えられています(ノイズ低減)。 しかし、PCAとk-meansの関係の比較と詳細な研究に興味があります。たとえば、Chris Ding and Xiaofeng He、2004、K-means Clustering by Principal Component Analysisは、「主成分がK-meansクラスタリングの離散クラスターメンバーシップインジケーターに対する連続的なソリューションである」ことを示しました。しかし、私はこの論文を理解するのに苦労しており、ウィキペディアは実際には間違っていると主張しています。 また、2つの方法の結果は、PCAが分散を維持しながら「機能」の数を減らすのに役立つという意味でやや異なります。一方、クラスタリングは、期待値/手段によっていくつかの点を要約することで「データ点」の数を減らします(k-meansの場合)。したがって、データセットがそれぞれ特徴を持つポイントで構成される場合、PCAはT個の特徴を圧縮することを目的とし、クラスタリングはN個のデータポイントを圧縮することを目的とします。NNNTTTNTTTNNN 私は、これらの2つの手法の関係についての素人の説明と、2つの手法に関するいくつかの技術論文を探しています。

10
クラスターの正しい数を決める方法は?
クラスターの中心を見つけて、k-meansクラスタリングでk個の異なるクラスタービンにポイントを割り当てます。これは、非常によく知られたアルゴリズムであり、ネット上のほとんどすべての機械学習パッケージにあります。しかし、私の意見で欠けている最も重要な部分は、正しいkの選択です。それに最適な値は何ですか?そして、最高の意味は何ですか? ここで説明する kを決定する方法としてシルエットプロットを見ることができる科学計算にMATLABを使用します。しかし、私はベイジアンアプローチにもっと興味があります。どんな提案も大歓迎です。

10
距離行列を使用したクラスタリング
Mノードの各ペア間の距離を表す(対称)マトリックスがあります。例えば、 ABCDEFGHIJKL A 0 20 20 20 40 60 60 60100120120120 B 20 0 20 20 60 80 80 80 120140140140 C 20 20 0 20 60 80 80 80 120140140140 D 20 20 20 0 60 80 80 80 120140140140 E 40 60 60 60 0 20 20 20 …
52 clustering 

2
教師なしクラスタリングに人工ニューラルネットワークANNを使用するにはどうすればよいですか?
artificial neural network (ANN)予測の誤差を減らすことでフィッティングを改善するために、逆伝播を使用して教師付き方法でをトレーニングする方法を理解しています。ANNは教師なし学習に使用できると聞いたことがありますが、最適化段階を導くための何らかのコスト関数なしでこれを行うにはどうすればよいですか?k-meansまたはEMアルゴリズムでは、各反復が増加するように検索する関数があります。 ANNを使用してクラスタリングを実行するにはどうすればよいですか?また、同じ場所でデータポイントをグループ化するためにどのメカニズムを使用しますか? (さらにレイヤーを追加するとどのような追加機能がもたらされますか?)


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.