8
クラスタリング品質測定
入力パラメーター(クラスターの数)を使用したクラスタリングアルゴリズム(k-meansではない)があります。クラスタリングを実行した後、このクラスタリングの品質を定量的に測定したいと思います。クラスタリングアルゴリズムには、1つの重要な特性があります。以下のために Iフィード場合結果として、このアルゴリズムにそれらの間の任意の有意な区別なしにデータ点を私が含む一つのクラスタ取得するのデータ点とを有するものクラスタのデータポイントを。明らかにこれは私が望むものではありません。そこで、この品質尺度を計算して、このクラスタリングの合理性を推定したいと思います。理想的には、異なるについてこの測定値を比較することができます。したがって、の範囲でクラスタリングを実行しますk = 2 N N − 1 1 k kkkkk=2k=2k=2NNNN−1N−1N-1111kkkkkk最高の品質のものを選択してください。このような品質尺度を計算するにはどうすればよいですか? 更新: が不適切なクラスタリングである場合の例を次に示します。平面上に正三角形を形成する3点があるとしましょう。これらのポイントを2つのクラスターに分割することは、1つまたは3つのクラスターに分割することより明らかに悪いです。(N−1,1)(N−1,1)(N-1, 1)
17
clustering