統計とビッグデータ clustering

5

K-meansは、クラスター分析で広く使用されている方法です。私の理解では、この方法はいかなる仮定も必要とせず、すなわち、データセットと事前に指定されたクラスター数kを与え、二乗誤差の合計（SSE）を最小化するこのアルゴリズムを適用します。エラー。したがって、k-meansは本質的に最適化の問題です。 k-meansの欠点に関する資料を読みました。それらのほとんどはそれを言う： k-meansは、各属性（変数）の分布の分散が球形であると仮定します。すべての変数の分散は同じです。すべてのkクラスターの事前確率は同じです。つまり、各クラスターの観測数はほぼ同じです。これら3つの仮定のいずれかに違反した場合、k-meansは失敗します。この声明の背後にある論理を理解できませんでした。k-means法は本質的に仮定をしておらず、SSEを最小化するだけなので、SSEの最小化とこれらの3つの「仮定」の間のリンクはわかりません。

365 machine-learning clustering data-mining k-means

8

ユークリッド距離が高次元で適切なメトリックではないのはなぜですか？

「ユークリッド距離は、高次元では良い距離ではない」と読みました。この声明は次元の呪いと関係があると思いますが、正確には何ですか？また、「高次元」とは何ですか？100個の特徴を持つユークリッド距離を使用して階層的クラスタリングを適用しています。このメトリックを使用しても「安全」な機能はいくつまでありますか？

240 machine-learning clustering distance-functions metric high-dimensional

8

顔画像のデータベースで特定の顔を検出する

私は、Twitterユーザーのプロフィール写真を使用した小さなプロジェクトに取り組んでいます。私が遭遇した問題は、鮮明なポートレート写真である画像を除くすべてを除外した後、Twitterユーザーのごく少数のかなりの割合がジャスティンビーバーの写真をプロフィール画像として使用することです。それらを除外するために、写真がジャスティンビーバーのものかどうかをプログラムでどのように判断できますか？

110 machine-learning clustering image-processing

6

クラスタリングアルゴリズムが意味のある結果を生成するのに十分なデータが「クラスター化」されているかどうかを確認する方法

（高次元の）データが十分なクラスタリングを示しているので、kmeansまたは他のクラスタリングアルゴリズムの結果が実際に意味があるかどうかをどのように確認しますか？特にk-meansアルゴリズムの場合、実際のクラスタリング結果が意味のある（スプリアスではない）ために、クラスター内分散の減少はどれくらい必要ですか？次元的に縮小された形式のデータをプロットすると、クラスタリングが明らかになります。また、クラスタリングを視覚化できない場合、kmeans（または他の方法）の結果は意味がありませんか？

78 clustering k-means

6

t-SNEの出力のクラスタリング

ノイズの多いデータセットをクラスター化してからクラスター内のサブグループ効果を探すのに便利なアプリケーションがあります。私は最初にPCAを調べましたが、変動の90％に達するには約30のコンポーネントが必要なので、わずか数台のPCでクラスタリングを行うと多くの情報が失われます。次に、t-SNEを（初めて）試しました。これにより、2次元で奇妙な形が得られ、k-meansを介したクラスタリングに非常に適しています。さらに、結果としてクラスター割り当てを使用してデータでランダムフォレストを実行すると、生データを構成する変数の観点から、問題のコンテキストを考慮して、クラスターがかなり賢明な解釈を持つことがわかります。しかし、これらのクラスターについてレポートする場合、どのように説明しますか？主成分のK-meansクラスターは、データセットの分散のX％を構成する派生変数に関して、互いに近い個人を明らかにします。t-SNEクラスターについて、同等のステートメントを作成できますか？おそらく次の効果があります： t-SNEは、基礎となる高次元多様体の近似的な連続性を明らかにするため、高次元空間の低次元表現上のクラスターは、隣接する個人が同じクラスターに存在しない「尤度」を最大化します誰もがそれよりも良い宣伝文句を提案できますか？

78 clustering interpretation k-means tsne

3

例：バイナリ結果にglmnetを使用したLASSO回帰

私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

6

クラスタリング方法の選択

データセットでクラスター分析を使用して同様のケースをグループ化する場合、多数のクラスタリング手法と距離の測定値から選択する必要があります。場合によっては、1つの選択が他の選択に影響を与える可能性がありますが、多くの方法の組み合わせが可能です。誰もがさまざまなクラスタリングアルゴリズム/方法と距離測定の選択方法に関する推奨事項を持っていますか？これは、変数の性質（カテゴリまたは数値など）およびクラスタリングの問題とどのように関連していますか？最適なテクニックはありますか？

73 clustering distance-functions methodology

7

ユークリッド距離は通常、スパースデータには適していませんか？

多次元データとスパースデータがある場合、古典的な距離（ユークリッド距離など）が弱判別性になることをどこかで見ました。どうして？ユークリッド距離がうまく機能しない2つのスパースデータベクトルの例はありますか？この場合、どの類似性を使用する必要がありますか？

72 machine-learning clustering data-mining sparse euclidean

6

k-meansクラスタリングアルゴリズムがユークリッド距離メトリックのみを使用するのはなぜですか？

効率または機能性に関して、k-meansアルゴリズムがコサイン（dis）の類似性を距離メトリックとして使用せず、ユークリッドノルムのみを使用できる理由はありますか？一般に、ユークリッド以外の距離が考慮または使用される場合、K-means法は準拠し、正しいですか？ [@ttnphnsによる追加。質問は2つあります。「（非）ユークリッド距離」は、2つのデータポイント間の距離、またはデータポイントとクラスター中心間の距離に関係する場合があります。これまでのところ、両方の方法で回答を取り上げようとしました。]

62 clustering k-means distance-functions euclidean

6

樹状図をどこでカットしますか？

階層的なクラスタリングは、樹状図で表すことができます。樹状図を特定のレベルで切断すると、クラスターのセットが得られます。別のレベルでカットすると、クラスターの別のセットが得られます。樹状図をカットする場所をどのように選択しますか？最適なポイントを検討できるものはありますか？樹状図を時間とともに変化させて見た場合、同じポイントでカットする必要がありますか？

61 clustering dendrogram

5

k-meansクラスタリングとPCAの関係は何ですか？

クラスタリングアルゴリズム（k-meansなど）の前にPCA（主成分分析）を適用するのが一般的な方法です。これにより、実際のクラスタリング結果が改善されると考えられています（ノイズ低減）。しかし、PCAとk-meansの関係の比較と詳細な研究に興味があります。たとえば、Chris Ding and Xiaofeng He、2004、K-means Clustering by Principal Component Analysisは、「主成分がK-meansクラスタリングの離散クラスターメンバーシップインジケーターに対する連続的なソリューションである」ことを示しました。しかし、私はこの論文を理解するのに苦労しており、ウィキペディアは実際には間違っていると主張しています。また、2つの方法の結果は、PCAが分散を維持しながら「機能」の数を減らすのに役立つという意味でやや異なります。一方、クラスタリングは、期待値/手段によっていくつかの点を要約することで「データ点」の数を減らします（k-meansの場合）。したがって、データセットがそれぞれ特徴を持つポイントで構成される場合、PCAはT個の特徴を圧縮することを目的とし、クラスタリングはN個のデータポイントを圧縮することを目的とします。NNNTTTNTTTNNN 私は、これらの2つの手法の関係についての素人の説明と、2つの手法に関するいくつかの技術論文を探しています。

61 clustering pca k-means

10

クラスターの正しい数を決める方法は？

クラスターの中心を見つけて、k-meansクラスタリングでk個の異なるクラスタービンにポイントを割り当てます。これは、非常によく知られたアルゴリズムであり、ネット上のほとんどすべての機械学習パッケージにあります。しかし、私の意見で欠けている最も重要な部分は、正しいkの選択です。それに最適な値は何ですか？そして、最高の意味は何ですか？ここで説明する kを決定する方法としてシルエットプロットを見ることができる科学計算にMATLABを使用します。しかし、私はベイジアンアプローチにもっと興味があります。どんな提案も大歓迎です。

54 clustering k-means

10

距離行列を使用したクラスタリング

Mノードの各ペア間の距離を表す（対称）マトリックスがあります。例えば、 ABCDEFGHIJKL A 0 20 20 20 40 60 60 60100120120120 B 20 0 20 20 60 80 80 80 120140140140 C 20 20 0 20 60 80 80 80 120140140140 D 20 20 20 0 60 80 80 80 120140140140 E 40 60 60 60 0 20 20 20 …

52 clustering

2

教師なしクラスタリングに人工ニューラルネットワークANNを使用するにはどうすればよいですか？

artificial neural network (ANN)予測の誤差を減らすことでフィッティングを改善するために、逆伝播を使用して教師付き方法でをトレーニングする方法を理解しています。ANNは教師なし学習に使用できると聞いたことがありますが、最適化段階を導くための何らかのコスト関数なしでこれを行うにはどうすればよいですか？k-meansまたはEMアルゴリズムでは、各反復が増加するように検索する関数があります。 ANNを使用してクラスタリングを実行するにはどうすればよいですか？また、同じ場所でデータポイントをグループ化するためにどのメカニズムを使用しますか？（さらにレイヤーを追加するとどのような追加機能がもたらされますか？）

52 clustering neural-networks unsupervised-learning self-organizing-maps

5

マルチクラス問題とマルチラベル問題の違いは何ですか

マルチクラス問題とマルチラベル問題の違いは何ですか？

52 classification clustering terminology multi-class multilabel

タグ付けされた質問 「clustering」

タグ付けされた質問「clustering」