私が見つかりました。このPython実装のジェンクス自然ブレークのアルゴリズムを、私はそれが私のWindows 7のマシン上で実行させることができます。それは非常に高速で、私のジオデータのサイズを考慮して、数時間で休憩を見つけます。データにこのクラスタリングアルゴリズムを使用する前に、sklearn.clustering.KMeans
(ここで)アルゴリズムを使用していました。私がKMeansで抱えていた問題は、最適なK値パラメーターを見つけることでしたが、異なるK値のアルゴリズムを起動し、sklearn.metrics.silhouette_score
(ここで)最適なK値を見つけるためにそれを「解決」しました。
私の質問は、Natural Breaksアルゴリズムに5つのクラス(Kとなる)を見つけるように指示した場合、これがデータに最適なクラスの数であることをどのように確認できますか?最適な数の休憩を選択していることを検証する方法は?
ありがとう!
「最良」の意味を客観的に判断できるように、クラスがデータに「一致」する意味を説明してください。(または、実際には、どの程度の
—
不一致
JenksでSilhouetteを使用することは、kmeansでSilhouetteを使用することに匹敵するはずです。これはヒューリスティックであり、盲目的に信頼するべきではありません。私見最高はあなたのrrsults を視覚化することです。
—
アノニムース-復元モニカ
Whuber:最高の、シルエットを使用すると、sklearnサイトの定義に従って、インデックスを1に近づけるクラスの数を意味します:scikit-learn.org/stable/modules/generated/…Anony-Mousse :視覚化できません20以上の変数、そのためのマップを準備し、私の脳がクラスの数を台無しにしないことを期待します。「変数Xの場合、できることはYクラスを使用することです」というインデックスに依存する必要があります。さらに、分析を数回再実行する必要があります
—
。viz
ジェンクスからジェンクスをインポートする:与え、次のエラートレースバック(最新の呼び出しの最後):ファイル「<STDIN>」、1行目を、で、<モジュール>はImportError:できないインポート名ジェンクス
—
user120982