「Lメソッド」を使用して、地理的アプリケーションのクラスター数を決定することができました(つまり、本質的に2次元の問題ですが、技術的にはユークリッドではありません)。
Lメソッドについては、ここで説明します。
階層的クラスタリング/セグメンテーションアルゴリズムでのクラスター/セグメントの数の決定Stan SalvadorおよびPhilip Chan
基本的に、これはkのさまざまな値の適合を評価します。「L」字型のグラフは、グラフの膝で表される最適なk値で見られます。単純な二重線最小二乗近似計算を使用して、ニーポイントを見つけます。
kの各値について反復k-meansを計算する必要があるため、この方法は非常に遅いことがわかりました。また、複数の実行でk-meansが最適に機能し、最後に最適なものを選択することもわかりました。各データポイントには2つの次元しかありませんでしたが、単純なピタゴラス距離は使用できませんでした。だから、それは多くの計算です。
1つの考えは、kの他のすべての値(たとえば)をスキップして計算の半分にし、k-meansの反復回数を減らしてから、結果の曲線をわずかに滑らかにしてより正確な近似を生成することです。StackOverflow -IMHO でこれについて尋ねましたが、平滑化の質問は未解決の研究質問のままです。