座標点(経度、緯度)のクラスタリングを実行しましたが、最適なクラスタ数のクラスタリング基準からの驚くべき、不利な結果が見つかりました。基準はclusterCrit()
パッケージから取得されます。プロット上でクラスター化しようとしているポイント(データセットの地理的特性がはっきりと見えます):
完全な手順は次のとおりです。
- 10kポイントで階層的クラスタリングを実行し、2:150クラスターのmedoidを保存しました。
- (1)のmedoidを163k観測のkmeansクラスタリングのシードとして取得しました。
- 最適なクラスター数について、6つの異なるクラスター化基準を確認しました。
2つのクラスタリング基準のみが、私にとって意味のある結果をもたらしました-SilhouetteとDavies-Bouldin基準。どちらの場合も、プロット上で最大値を探す必要があります。どちらも「22クラスタは適切な数です」という答えを与えるようです。以下のグラフの場合:x軸はクラスターの数、y軸は基準の値です。画像の説明が間違っているため、申し訳ありません。SilhouetteとDavies-Bouldin:
次に、Calinski-HarabaszとLog_SSの値を見てみましょう。最大値はプロット上にあります。グラフは、値が高いほどクラスタリングが優れていることを示しています。このような着実な成長は驚くべきことです。150個のクラスターはすでにかなりの数になっていると思います。それぞれCalinski-HarabaszとLog_SSの値のプロットの下。
次に、最も驚くべき部分について、最後の2つの基準について説明します。Ball-Hallの場合、2つのクラスタリング間の最大の差が望ましく、Ratkowsky-Lanceの場合は最大です。Ball-HallとRatkowsky-Lanceのプロット:
最後の2つの基準は、3番目と4番目の基準よりも完全に不利な回答を示します(クラスターの数が少ないほど良い)。そんなことがあるものか?私にとっては、最初の2つの基準だけがクラスタリングを理解できたようです。0.6前後のシルエット幅はそれほど悪くありません。奇妙な答えを出す指標をスキップして、合理的な答えを与える指標を信じるべきでしょうか?
編集:22クラスターのプロット
編集する
データが22のグループに非常にうまくクラスター化されていることがわかります。そのため、2つのクラスターを選択する必要があることを示す基準には弱点があるように見え、ヒューリスティックが適切に機能していません。データをプロットできる場合、またはデータを4つ未満の主成分にパックしてプロットできる場合は問題ありません。しかしそうでなければ?基準を使用する以外の方法でクラスターの数を選択するにはどうすればよいですか?CalinskiとRatkowskyが非常に良い基準であることを示すテストを見たことがありますが、それでも一見簡単なデータセットに対しては不利な結果が得られます。したがって、「なぜ結果が異なるのか」ではなく、「これらの基準をどれだけ信頼できるか」という質問ではないでしょうか。
ユークリッドメトリックが適切でないのはなぜですか?それらの間の実際の正確な距離にはあまり興味がありません。私は真の距離が球形であることを理解していますが、すべての点A、B、C、Dについて、Spheric(A、B)> Spheric(C、D)の場合は、Euclidian(A、B)> Euclidian(C、D)よりもクラスタリングメトリックには十分です。
これらのポイントをクラスター化したいのはなぜですか?予測モデルを構築したいのですが、各観測の場所に多くの情報が含まれています。それぞれの観測について、都市と地域も持っています。しかし、都市が多すぎて、たとえば5000の因子変数を作成したくありません。したがって、座標でクラスタリングすることを考えました。異なる領域の密度が異なり、アルゴリズムがそれを見つけたので、それはかなりうまくいきました、22の因子変数は大丈夫でしょう。予測モデルの結果によってクラスタリングの良さを判断することもできますが、これが計算上賢明かどうかはわかりません。新しいアルゴリズムのおかげで、巨大なデータセットで高速に動作する場合は、間違いなく試してみるつもりです。