パンダとscikit学習を使用して、Pythonでkmeansクラスタリングをコーディングしたいと思います。良いkを選択するために、Tibshirani and al 2001(pdf)からのギャップ統計をコード化したいと思います。
すべての距離計算を再コーディングする必要なしに、scikitの惰性結果を使用してギャップ統計式を適応できるかどうか知りたいのですが。
高レベル距離関数を使用してギャップ統計を再コーディングする簡単な方法をscikitで使用されている慣性公式を知っている人はいますか?
この質問には、CVの主題となる十分な統計的内容があると思いますが、かなり高度なプログラミングとPythonの知識も必要です。良い答えを得るのは難しいかもしれません。同様に、疑似コードを求める/進んで解決することもできます。また、この質問を2つの部分に分割する必要がある場合もあります。1つは統計的側面に関するもの、もう 1つはPythonプログラミング側面に関するスタックオーバーフローに関する部分です。(あるいはそうでないかもしれない、私は確かに知らないが、私はちょうどあなたに公正な警告を与えたい、我々はそれが行く方法を説明します。)
—
GUNG -復活モニカ
この質問では、「慣性」という用語を定義する必要があります。内で造られたように見えます
—
ttnphns 2013
python
。