バイナリ変数間のこの相関/関連測定の名前は何ですか?


7

とりわけ、2つのバイナリ確率変数と間の関連付け(または偶発性または相関)のいくつかの測定値があります。XY

以下の数は、統計的に興味深い場合、既知の測定値とどのように関係し、どのような名前で(おそらく)議論されているのでしょうか。κ

κ=12N|XY|

プロパティまたはプロパティを持ち、両方を持たないサンプルの数(排他的OR、対称差)、サンプルの総数。ファイ係数と同様に、は完全な一致または不一致を示し、は関係がないことを示します|XY|XYNκ=±1κ=0

回答:


10

ここにあるように、4つ折りテーブルのa、b、c、d規則を使用し

               Y
             1   0
            -------
        1  | a | b |
     X      -------
        0  | c | d |
            -------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.

代用して入手

12(b+c)n=n2b2cn=(a+d)(b+c)a+b+c+d = ハマン相似係数。例えばここでそれを満たします。引用する:

ハマンの類似性の尺度。このメジャーは、特性が両方の項目で同じ状態(両方に存在するか、両方に存在しない)である確率から、特性が2つの項目で異なる状態(一方に存在し、もう一方に存在しない)になる確率を引いたものです。HAMANNの範囲は-1から+1で、単純一致類似度(SM)、Sokal&Sneath類似度1(SS1)、およびRogers&Tanimoto類似度(RT)に単調に関連しています。

ハマンの公式を、a、b、c、dの項で与えられたファイの相関(言及したもの)の公式と比較することもできます。どちらも「相関」測定値です。範囲は-1から1です。ただし、Phiの分子は aとdの両方が大きい(またはbとcの両方が大きい場合は同様に-1)場合にのみ1に近づきます。つまり、ピアソンの相関関係、特にその2値データの停滞Phi は、データ内の周辺分布対称性に敏感です。ハマンの分子、製品の代わりに合計を持つが、それに敏感ではありません。どちらかadbc(a+d)(b+c)ペアの2つの被加数が大きいほど、係数は1(または-1)に近づきます。したがって、周辺分布の形に反する「相関」(または準相関)メジャーが必要な場合は、ファイよりもハマンを選択します。

図:

Crosstabulations:
        Y
X    7     1
     1     7
Phi = .75; Hamann = .75

        Y
X    4     1
     1    10
Phi = .71; Hamann = .75

ハマンの類似性は広く知られており、興味深い指標として受け入れられていますか?
Hans-Peter Stricker 2017年

1
どうすれば答えられますか?どのくらい広く/受け入れられれば十分でしょうか?:-) phi相関またはJaccard類似性ほど知られていません。それでも時々使用されます。Google it to see ...その重要な特性の1つは、それが...の単調な等価であるということです(引用を参照)。
ttnphns 2017年

私の素朴な質問でごめんなさい、そしてあなたの有益な答えをありがとう:-)
Hans-Peter Stricker

典型的な状況では「限界分布の形状に反する相関」が必要であり、ハマンを選択し、「相関ではない限界分布の形状を無視しない」という状況でPhiを選択する可能性があるヒントを教えていただけますか?
Hans-Peter Stricker 2017年

ハンス、あなたが科学分野について話している場合、または私たちがどちらか一方を使いたいと思うかもしれない目的について話しているなら、なぜそれを別の質問として尋ねないのですか?より多くの人が答えに来るかもしれないので。
ttnphns 2017年

4

Hubalek、Z.バイナリ(存在-不在)データに基づく関連性と類似性の係数:評価(Biol。Rev.、1982)は 、バイナリデータの42の異なる相関係数をレビューしてランク付けします。そのうちの3つだけが基本的な統計的デシダータを満たしています。残念ながら、PRE(エラーの比例的削減)解釈の問題は議論されていません。次の分割表の場合:

        present  absent

present    a       b

absent     c       d

関連指標は、次の必須条件を満たしている必要があります。r

  1. r(J,K)r(J,J)J,K

  2. min(r)はあり、はa=d=0max(r)b=c=0

  3. r(J,K)=r(K,J)K,J

  4. 正の関連と負の関連の区別

  5. rは、両方のサブセット およびで線形でなければなりません(は条件4に違反することに注意してください)χ2adbc<0adbc>=0χ2

そして理想的には以下の義務ではありません:

  • 範囲は、、、またはいずれかで必要がありますr{1+1}{0+1}{0}

  • r(b=c=0)>r(b=0c=0)

  • r(a=0)=min(r)(上記の2より厳密))

  • r(a+1)r(a)=r(a+2)r(a+1)

  • r(a=0,b,c,d),r(a=1,b1,c1,d+1),r(a=2,b2,c2,d+2)は滑らかでなければなりません

  • 順列標本における均一分布r

  • 既知の持つ母集団からのランダムサンプル:は、小さなサンプルでもほとんど変動を示さないはずですa,b,c,dr

  • 計算が簡単で、コンピュータ時間が短い

すべての条件は、ジャカードによって満たされる、ラッセル・ラオの両方(範囲)とMcConnaughey(範囲)(aa+b+c)(aa+b+c+d){0+1}(a2bc(a+b)×(a+c)){1+1}


表記を使用するように編集できれば、これは読みやすくなります。私はその方法を示すために小さな部分を行います。LATEX
kjetil b halvorsen 2017

ここで2つの回答をマージしてください。1つを編集してもう1つの内容を追加してから、1つを削除してください。
ttnphns 2017

あなたのコマンドで;-)
Engelbert Buxbaum 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.