純度の計算方法は?


15

クラスター分析では、純度をどのように計算しますか?方程式は何ですか?

私は私のためにそれを行うためのコードを探していません。

ここに画像の説明を入力してください

してみましょうクラスタK、となるC jの BEクラスj。ωkcj

純度は実質的に正確ですか?サンプルサイズ全体でクラスターごとに真に分類されたクラスの量を合計しているようです。

方程式のソース

問題は、出力と入力の関係は何ですか?

Truly Positive(TP)、Truly Negative(TN)、False Positive(FP)、False Negative(FN)がある場合。それであるPurity=TPK(TP+TN+FP+FN)


3
簡単な定義だけが必要な場合:クラスタリングの純度に関するトップのGoogle検索** は、数学的な定義を提供するリンクです。(**私にとっては、少なくとも-あなたの個々の結果は異なる場合があります)
Glen_b -Reinstate Monica 14

「純度」の意味がわかりませんが、David Colquhounは優れた教科書Lectures on Biostatistics(1971)のpp。111-114の二項サンプリングの例として「心臓の純度の黒魔術分析」を使用しています。著者のウェブサイトから無料のPDFとして入手可能:dcscience.netたとえそれがあなたの質問とは無関係であっても、それは素晴らしい話です。
マイケルルー-モニカの復元14年

分類ツリーでは、不純物を測定する関数の一部は次のとおりです。再置換エラー、ジニ指数、およびエントロピー。(分類ツリーは特定の形式のクラスタリングを実行するため、これは関連性があると思います。)これが役立つことを願っています!
アンジェロフ14

回答:


25

クラスター分析のコンテキストで純度はクラスター品質の外部評価基準です。 単位範囲[0..1]で正しく分類されたオブジェクト(データポイント)の総数の割合です。

Purity=1Ni=1kmaxj|citj|

ここで、N =オブジェクトの数(データポイント)、k =クラスタの数、ciクラスタであるC、とtjクラスタの最大カウント有する分類であるci

citiciticiticiciticitimax

citi

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

ci

Purity = (53 + 60 + 16) / 140 = 0.92142

エントロピーについても答えていただけますか?
MonsterMMORPG


tjmaxj
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.