回答:
ここにあるように、4つ折りテーブルのa、b、c、d規則を使用して、
Y
1 0
-------
1 | a | b |
X -------
0 | c | d |
-------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.
代用して入手
= ハマン相似係数。例えばここでそれを満たします。引用する:
ハマンの類似性の尺度。このメジャーは、特性が両方の項目で同じ状態(両方に存在するか、両方に存在しない)である確率から、特性が2つの項目で異なる状態(一方に存在し、もう一方に存在しない)になる確率を引いたものです。HAMANNの範囲は-1から+1で、単純一致類似度(SM)、Sokal&Sneath類似度1(SS1)、およびRogers&Tanimoto類似度(RT)に単調に関連しています。
ハマンの公式を、a、b、c、dの項で与えられたファイの相関(言及したもの)の公式と比較することもできます。どちらも「相関」測定値です。範囲は-1から1です。ただし、Phiの分子は、 aとdの両方が大きい(またはbとcの両方が大きい場合は同様に-1)場合にのみ1に近づきます。つまり、ピアソンの相関関係、特にその2値データの停滞Phi は、データ内の周辺分布の対称性に敏感です。ハマンの分子、製品の代わりに合計を持つが、それに敏感ではありません。どちらかペアの2つの被加数が大きいほど、係数は1(または-1)に近づきます。したがって、周辺分布の形に反する「相関」(または準相関)メジャーが必要な場合は、ファイよりもハマンを選択します。
図:
Crosstabulations:
Y
X 7 1
1 7
Phi = .75; Hamann = .75
Y
X 4 1
1 10
Phi = .71; Hamann = .75
Hubalek、Z.バイナリ(存在-不在)データに基づく関連性と類似性の係数:評価(Biol。Rev.、1982)は 、バイナリデータの42の異なる相関係数をレビューしてランク付けします。そのうちの3つだけが基本的な統計的デシダータを満たしています。残念ながら、PRE(エラーの比例的削減)解釈の問題は議論されていません。次の分割表の場合:
present absent
present a b
absent c d
関連指標は、次の必須条件を満たしている必要があります。
はあり、は
正の関連と負の関連の区別
は、両方のサブセット およびで線形でなければなりません(は条件4に違反することに注意してください)
そして理想的には以下の義務ではありません:
範囲は、、、またはいずれかで必要があります
(上記の2より厳密))
は滑らかでなければなりません
順列標本における均一分布
既知の持つ母集団からのランダムサンプル:は、小さなサンプルでもほとんど変動を示さないはずです
計算が簡単で、コンピュータ時間が短い
すべての条件は、ジャカードによって満たされる、ラッセル・ラオの両方(範囲)とMcConnaughey(範囲)