そのような係数は多数存在します(ほとんどはここで表されています)。特に係数の行列を計算する場合は、式の違いがどのような結果をもたらすかを黙想してみてください。
たとえば、オブジェクト1と2がオブジェクト3と4に似ていることを想像してください。ただし、1と2のリストには多くの属性があり、3と4の属性はほとんどありません。この場合、Russell-Rao(検討中の属性の総数に対する共同属性の割合)は、ペア1-2で高く、ペア3-4で低くなります。しかし、Jaccard(両方のオブジェクトが持っている属性の組み合わせ数に対する共属性の割合=どちらかのオブジェクトが属性を持っている場合、両方が持っている確率)は、ペア1-2と3-4の両方で高くなります。
「属性による彩度」の基本レベルのこの調整により、JaccardはRussell-Raoよりも人気があり、クラスター分析や多次元スケーリングなどで便利になります。ある意味では、1つのオブジェクトに属性がある場合、他のオブジェクトにも属性があるという算術平均確率であるKulczynski-2メジャーを選択することにより、上記の調整をさらに洗練させることができます:
(aa + b+ aa + c)/ 2
ここで、2つのオブジェクトの属性のベース(またはフィールド)は、Jaccardのようにプールされませんが、2つのオブジェクトのそれぞれに対して所有されます。その結果、オブジェクトが持つ属性の数と、「より貧しい」オブジェクトが「より豊富な」オブジェクトと共有するすべての属性が大きく異なる場合、クルチンスキーは高くなりますが、ジャカードは適度になります。
それとも、計算することを好む可能性があり、幾何学的生み出す一つのオブジェクトが属性を持っている場合は、他のオブジェクトもそれを持っていることを意味する確率、落合の措置を:
どちらか一方の項のみが成長すると積は和よりも弱くなるため、2つの割合(確率)の両方が高い場合にのみ落合は本当に高くなります。それらの属性の共有。つまり、とが等しくない場合、落合は類似性を抑制します。実際、落合はコサイン類似度の尺度です(ラッセルラオは内積の類似度です)。 bc
a+baa + c−−−−−−−−−√
bc
PS
一部のデータセットでは、両方の属性(d)が同時に存在しないために情報が伝達されないためですか?
類似性の尺度と言えば、名目上の二分属性(女性、男性など)とバイナリ属性(現在と不在)を混同しないでください。バイナリ属性は対称ではありません(一般的に)-あなたと私が特性を共有している場合、それは私たちを同様と呼ぶ根拠になります。あなたと私が両方ともその特性を見逃した場合、研究の文脈に応じて、類似性の証拠と見なされる場合とされない場合があります。したがって、の異なる処理が可能です。d
また、1 + 名義属性(2項または多項)に基づいてオブジェクト間の類似性を計算する場合は、そのような各変数をダミーバイナリ変数のセットに再コーディングします。次に、計算する推奨される類似度はDiceになります(これは、ダミー変数の1+セットに対して計算された場合、OchiaiおよびKulczynski-2と同等です)。