クラスターアルゴリズムのランドインデックスを計算する方法を理解しようとしていますが、真と偽のネガを計算する方法で立ち往生しています。
現時点では、書籍「情報検索入門」(Manning、Raghavan&Schütze、2009)の例を使用しています。359ページで、ランドインデックスの計算方法について説明しています。この例では、3つのクラスターを使用し、クラスターには次のオブジェクトが含まれています。
- ああああ
- abbbbc
- aaccc
オブジェクトを置き換えます(元の文字から文字へのサインですが、アイデアとカウントは同じままです)。彼らが何を話しているかを見るために、本から正確な言葉を与えます。
最初にTP + FPを計算します。3つのクラスターにはそれぞれ6、6、および5ポイントが含まれているため、同じクラスター内にある「陽性」またはドキュメントのペアの総数は次のとおりです。
TP + FP = + + = 15 + 15+ 10 = 40
これらのうち、クラスター1のaペア、クラスター2のbペア、クラスター3のcペア、クラスター3のaペアは真陽性です。
TP = + + + = 10 + 6 + 3 + 1 = 20
したがって、FP = 40 − 20 = 20です。
ここまで計算は明確であり、他の例を取り上げると同じ結果が得られますが、偽陰性と真陰性を計算したい場合はマニングら。次のように述べます。
FNとTNも同様に計算され、次の分割表が作成されます。
分割表は次のようになります。
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
「FNとTNは同様に計算されます」という文は私には明確ではなく、TNとFNを計算するために必要な数値がわかりません。以下を実行することで、テーブルの右側を計算できます。
TP + FP + FN + TN = = = 136
ソース:http : //en.wikipedia.org/wiki/Rand_index
したがって、FN + TN = 136-TP + FP = 136-40 = 96ですが、これは変数を個別に計算する方法を理解する上で実際には役立ちません。特に著者が「FNとTNは同様に計算される」と言っている場合。どうしてかわかりません。また、他の例を見ると、各ペアを見ることで分割表の各セルを計算します。
例:http : //www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Manning et al(2009)の例に基づく私の最初の質問は、TPとNPしかわからない場合にTNとFNを計算することは可能ですか?もしそうなら、同様の計算は与えられた例に基づいてどのように見えますか?