バイナリデータの類似性係数:ラッセルとラオよりもジャカードを選択する理由


20

統計科学百科事典 Iは、与えられたことを理解し(変数)属性、我々は任意の二つのオブジェクトのための分割表を形成することができ;二値(0 =なし1 =本バイナリ)は、I及びJのサンプルを:p

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

これらの値から、オブジェクトの任意のペア間の類似度係数、特にジャカード係数 とラッセルおよびラオ係数 a

aa+b+c
aa+b+c+d=ap.

これらの係数を計算すると、異なる値が得られますが、なぜ一方を選択する必要があるのを説明するリソースは見つかりません。一部のデータセットでは、両方の属性()が同時に存在しないために情報が伝達されないためです。d

回答:


14

そのような係数は多数存在します(ほとんどはここで表されています)。特に係数の行列を計算する場合は、式の違いがどのような結果をもたらすかを黙想してみてください。

たとえば、オブジェクト1と2がオブジェクト3と4に似ていることを想像してください。ただし、1と2のリストには多くの属性があり、3と4の属性はほとんどありません。この場合、Russell-Rao(検討中の属性の総数に対する共同属性の割合)は、ペア1-2で高く、ペア3-4で低くなります。しかし、Jaccard(両方のオブジェクトが持っている属性の組み合わせ数に対する共属性の割合=どちらかのオブジェクトが属性を持っている場合、両方が持っている確率)は、ペア1-2と3-4の両方で高くなります。

「属性による彩度」の基本レベルのこの調整により、JaccardRussell-Raoよりも人気があり、クラスター分析や多次元スケーリングなどで便利になります。ある意味では、1つのオブジェクトに属性がある場合、他のオブジェクトにも属性があるという算術平均確率であるKulczynski-2メジャーを選択することにより、上記の調整をさらに洗練させることができます:

(aa+b+aa+c)/2
ここで、2つのオブジェクトの属性のベース(またはフィールド)は、Jaccardのようにプールされませんが、2つのオブジェクトのそれぞれに対して所有されます。その結果、オブジェクトが持つ属性の数と、「より貧しい」オブジェクトが「より豊富な」オブジェクトと共有するすべての属性が大きく異なる場合、クルチンスキーは高くなりますが、ジャカードは適度になります。

それとも、計算することを好む可能性があり、幾何学的生み出す一つのオブジェクトが属性を持っている場合は、他のオブジェクトもそれを持っていることを意味する確率、落合の措置を: どちらか一方の項のみが成長すると積は和よりも弱くなるため、2つの割合(確率)の両方が高い場合にのみ落合は本当に高くなります。それらの属性の共有。つまり、とが等しくない場合、落合は類似性を抑制します。実際、落合はコサイン類似度の尺度です(ラッセルラオは内積の類似度です)。 bc

aa+baa+c
bc

PS

一部のデータセットでは、両方の属性(d)が同時に存在しないために情報が伝達されないためですか?

類似性の尺度と言えば、名目上の二分属性(女性、男性など)とバイナリ属性(現在と不在)を混同しないでください。バイナリ属性は対称ではありません(一般的に)-あなたと私が特性を共有している場合、それは私たちを同様と呼ぶ根拠になります。あなたと私が両方ともその特性を見逃した場合、研究の文脈に応じて、類似性の証拠と見なされる場合とされない場合があります。したがって、の異なる処理が可能です。d

また、1 + 名義属性(2項または多項)に基づいてオブジェクト間の類似性を計算する場合は、そのような各変数をダミーバイナリ変数のセットに再コーディングします。次に、計算する推奨される類似度はDiceになります(これは、ダミー変数の1+セットに対して計算された場合、OchiaiおよびKulczynski-2と同等です)。


2
3つ以上のカテゴリを持つ分類の「二分法」との類推によって、さまざまな用語が提案されています。「多声」は、「多声」よりも言語的に好ましい。「多声」は、「二分」がギリシャ語の2つのルート「di」と「chotomous」に解析されるという誤った推測に基づいています。「多律」は、ラテン語のルートを使用するとエラーになる化合物です。ラテン語とギリシャ語が別々の語根を持つ言葉は、言語学者の軽da(たとえば「テレビ」)を乗り越えてきましたが、ここでは「多言語」の使用をお勧めします。
ニックコックス

思い出してくれてありがとう。私は実際にあなたが何について言っているかを知っていて、急いでいないときに自分自身を純粋にしようとします... 編集します。
ttnphns

3

セグメンテーションをゴールドスタンダードと比較すると、従来の精度(つまり、ラッセルラオ)に対するタニモト係数の有用性が画像分析で明らかです。次の2つの画像を検討してください。

ここに画像の説明を入力してください

バイナリの「マスク」であるこれらの各画像には、同じサイズであるがわずかに異なる場所に配置された2つのオブジェクトがあり、重複を評価することにより、これらのオブジェクトの形状と位置がどの程度同一であるかを評価したいと思います。通常、1つ(たとえば、紫色のマスク)はセグメンテーション(コンピューターアルゴリズムによって生成)です。たとえば、これは医療画像から心臓の位置を特定する試みです。もう1つ(緑など)は、ゴールドスタンダード(つまり、専門の臨床医が特定した心臓)です。白い色がある場合、2つの形状が重なります。黒いピクセルは背景です。

2つの画像は同じです(つまり、セグメンテーションアルゴリズムの結果とゴールドスタンダードは両方の画像で同じです)。ただし、2番目の画像の背景「パディング」が多くあります(たとえば、 2台の異なるX線装置。2台目の装置はより多くの身体領域をカバーするより広い光線を持っていましたが、それ以外の点では心臓のサイズは両方の画像セットで同じです)。

明らかに、両方の画像のセグメンテーションとゴールドスタンダードは同一であるため、ゴールドスタンダードに対してセグメンテーションの精度を評価する場合、両方の実験で同じ「精度」の結果を出力するようにしたいと思います。

しかし、Russel-Raoアプローチを使用してセグメンテーションの品質を評価しようとすると、「背景ピクセルとして正しく識別された背景ピクセル」が、セットの全体的な精度、および背景ピクセルは、2番目のセットで不均衡に表されます。医療セグメンテーションで重複を評価するオブジェクトは、多くの場合、大規模な背景の小さな斑点であるため、これはあまり役に立ちません。さらに、1つのセグメンテーションアルゴリズムの精度を別のセグメンテーションアルゴリズムと比較しようとした場合、問題が発生し、2つは異なるサイズの画像で評価されました。(または、同等に、異なるスケールで)。埋め込み画像のスケーリング/サイズは、ゴールドスタンダードに対するセグメンテーションの評価に違いをもたらすべきではありません!

対照的に、タニモト係数は背景ピクセルを考慮しないため、「スケール」に対して不変です。したがって、タニモト係数に関する限り、これらの両方のセットの類似性は同一であり、セグメンテーションアルゴリズムの品質を評価するために使用するのにはるかに有用な類似性メトリックになります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.