Cluster Analysisは統計単位のグループ(個人または変数)を分離しようとするため、使用するクラスタリング方法が何であれ、データ内の「最適な」数のクラスターを選択する方法について明確なソリューションを提供することはかなり困難です)本質的に探索的または説明的な目的のため。したがって、クラスタリングスキームの出力も解釈する必要があり、いくつかのクラスターソリューションも同様に興味深い場合があります。
さて、データの集約を停止するタイミングを決定するために使用される通常の統計基準に関して、@ arsが指し示すように、ほとんどが視覚誘導の基準であり、樹状図の分析やシルエットプロットとも呼ばれるクラスタープロファイルの検査を含みます(Rousseeuw、1987) 。有効性指数としても知られるいくつかの数値基準も提案されました。例えば、ダンの有効性指数、デービス・ボールディンの有効性指数、C指数、ヒューバートのガンマなどです。階層的クラスタリングは、多くの場合k-means(実際には確率的アルゴリズムであるためk-meansのいくつかのインスタンス)と一緒に実行され、見つかったクラスタリングソリューションへのサポートを追加します。これらすべてがPythonですぐに利用できるかどうかはわかりませんが、Rでは膨大な量のメソッドが利用できます(関連する質問について@mbqによって既に引用されているクラスタータスクビュー、MovieLensにクラスタリングアルゴリズムを適用するために使用できるツールは何ですか?)。データ内のクラスターの数をより堅牢に選択する方法を模索する場合、ファジークラスタリングやモデルベースのクラスタリング(心理測定コミュニティでは潜在特性分析とも呼ばれます)が含まれます。
ところで、私はこのWebページscipy-clusterに出会いました。これは、階層クラスターを生成、視覚化、分析するためのScipyの拡張機能です。他の機能が含まれている可能性がありますか?多変量解析に非常に優れた機能を提供するPyChemについても聞いたことがあります。
次の参照も役立つ場合があります。
Steinley、D.、&Brusco、MJ(2008)。クラスター分析における変数の選択:8つの手順の経験的比較。Psychometrika、73、125-144。