6
t-SNEの出力のクラスタリング
ノイズの多いデータセットをクラスター化してからクラスター内のサブグループ効果を探すのに便利なアプリケーションがあります。私は最初にPCAを調べましたが、変動の90%に達するには約30のコンポーネントが必要なので、わずか数台のPCでクラスタリングを行うと多くの情報が失われます。 次に、t-SNEを(初めて)試しました。これにより、2次元で奇妙な形が得られ、k-meansを介したクラスタリングに非常に適しています。さらに、結果としてクラスター割り当てを使用してデータでランダムフォレストを実行すると、生データを構成する変数の観点から、問題のコンテキストを考慮して、クラスターがかなり賢明な解釈を持つことがわかります。 しかし、これらのクラスターについてレポートする場合、どのように説明しますか?主成分のK-meansクラスターは、データセットの分散のX%を構成する派生変数に関して、互いに近い個人を明らかにします。t-SNEクラスターについて、同等のステートメントを作成できますか? おそらく次の効果があります: t-SNEは、基礎となる高次元多様体の近似的な連続性を明らかにするため、高次元空間の低次元表現上のクラスターは、隣接する個人が同じクラスターに存在しない「尤度」を最大化します 誰もがそれよりも良い宣伝文句を提案できますか?