Sergeyの答えには重要な点が含まれています。これは、シルエット係数が達成されるクラスタリングの品質を定量化するということです。したがって、シルエット係数を最大化するクラスターの数を選択する必要があります。
長い答えは、クラスタリング作業の結果を評価する最良の方法は、実際に人間の検査で形成されたクラスターを検査し、データが表すもの、クラスターが表すもの、そして、クラスタリングを実現するために意図されているもの。
制限の完全な理解を持つツールとして使用されるべきであるクラスタリング結果を、評価する数多くの定量的な方法があります。それらは本質的にかなり直感的である傾向があるため、自然な魅力があります(一般的なクラスタリング問題のように)。
例:クラスターの質量/半径/密度、クラスター間の凝集または分離など。これらの概念はしばしば組み合わされます。たとえば、クラスター化が成功した場合、分離と凝集の比率は大きくなければなりません。
クラスタリングの測定方法は、使用されるクラスタリングアルゴリズムの種類によって通知されます。例えば、品質測定完了(すべての点がクラスタに入れられた)クラスタリングアルゴリズムは、いくつかのポイントが「ノイズ」として非クラスタ化残される可能性のあるしきい値ベースファジークラスタリングアルゴリズム(の品質を測定することは非常に異なることができます)。
シルエット係数はそのような尺度の1つです。次のように機能します。
各ポイントpについて、最初にpと同じクラスター内の他のすべてのポイントとの間の平均距離を見つけます(これは凝集度の尺度であり、Aと呼びます)。次に、pと、最も近いクラスター内のすべてのポイントとの間の平均距離を見つけます(これは、最も近い他のクラスターからの分離の尺度です。pのシルエット係数は、BとAの差を2つのうちの大きい方(max(A、B))で割ったものとして定義されます。
各ポイントのクラスター係数を評価し、これから「全体的な」平均クラスター係数を取得できます。
直感的に、我々は、クラスタ間のスペースを測定しようとしています。クラスターの凝集が良好(Aが小さい)でクラスターの分離が良好(Bが大きい)の場合、分子は大きくなります。
私はこのグラフィックを示すために、ここで例を構築してきました。
これらのプロットでは、同じデータが5回プロットされています。色がk = 1,2,3,4,5と、k-meansクラスタリングにより作成されたクラスタを示します。つまり、クラスタリングアルゴリズムにデータを2つのクラスター、次に3つのクラスターに分割するように強制し、それに応じてグラフに色を付けました。
シルエットプロットは、k = 3のときにシルエット係数が最高であったことを示しており、これが最適なクラスター数であることを示唆しています。この例では、データを視覚化できることは幸運であり、実際、3つのクラスターがこのデータセットのセグメンテーションを最もよくキャプチャすることに同意するかもしれません。
おそらくより高い次元性のためにデータを視覚化できなかった場合、シルエットプロットはまだ提案を提供します。ただし、ここでの多少長めの答えが、この「提案」が非常に不十分であるか、特定のシナリオでは単純に間違っている可能性があることを指摘することを願っています。