属性が名目である場合、個人にとって最適な距離関数は何ですか？

名義（順序付けされていないカテゴリ）属性の場合に使用する個人間の距離関数がわかりません。私はいくつかの教科書を読んでいて、それらはSimple Matching関数を提案していますが、一部の本は、名義をバイナリ属性に変更してJaccard係数を使用するべきだと提案しています。ただし、名義属性の値が2でない場合はどうなりますか？その属性に3つまたは4つの値がある場合はどうなりますか？

名義属性にはどの距離関数を使用すればよいですか？

— ジェーン・ドウ
ソース

CramerのVとChiの2乗統計で、この投稿は役に立ちました。

— KarthikS 2016

技術的には、名義属性の個人間の不一致メジャーを計算するために、ほとんどのプログラムは、最初に各名目変数をダミーのバイナリ変数のセットに再コード化してから、バイナリ変数のメジャーを計算します。これは、頻繁に使用されるバイナリの類似性と非類似性の測定値の式です。

ダミー変数（ワンホットとも呼ばれます）とは何ですか？以下は5人の個人、2つの名目変数です（Aは3つのカテゴリー、Bは2つのカテゴリー）。Aの代わりに作成された3つのダミー、Bの代わりに作成された2つのダミー。

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

（ダミーの回帰で通常行うように、「冗長」として1つのダミー変数を削除する必要はありません。特別な状況ではそのオプションを検討する場合がありますが、クラスタリングでは実践されていません。）

バイナリ変数には多くの尺度がありますが、それらすべてが論理的にダミーのバイナリ変数、つまり以前の名目変数に適しているわけではありません。名目変数の場合、「2人の個人が一致する」という事実と「2人の個人が一致しない」という事実は同等に重要です。しかし、人気のあるJaccardメジャー検討してください。 $\frac{a}{a+b+c}$

a-両方の個人のダミーの数1
b-ダミーの数。これは1、それは0
c-ダミーの数0の場合は1、1の場合は1
d-両方のダミーの数0

ここで、ミスマッチは2つのバリアントおよび構成されます。しかし、すでに述べたように、私たちにとって、それらのそれぞれはと一致と同じように重要です。したがってを2倍に重み付け、式（fice）を取得する必要があります。これは、Dice（Lee Diceの後）またはCzekanovsky-Sorensenメジャーとして知られています。これはダミー変数に適しています。実際、有名な合成ガワー係数（名目属性で推奨）は、すべての属性が名目である場合、Diceとまったく同じです。また、ダミー変数の場合、ダイスメジャー（個人間）= 落合メジャー（これは単に $b$ $c$ $a$ $a$ $\frac{2a}{2a+b+c}$ コサイン）= Kulczynsky 2メジャー。さらに参考までに、1-ダイス=バイナリランス-ウィリアムズ距離は、ブレイカーティス距離とも呼ばれます。同義語がいくつあるか見てみましょう。あなたはあなたのソフトウェアでその同義語を見つけられるはずです！

ダイス類似係数の直感的な有効性は、それが単に共起比率（または相対一致）であるという事実から来ています。上記のデータスニペットの場合、公称列Aを取り5x5、1（両方の個人が同じカテゴリに分類される）または0（同じカテゴリに分類されない）のいずれかで正方対称行列を計算します。同様にの行列を計算しBます。

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

2つの行列の対応するエントリを合計し、2（公称変数の数）で割ります。ここでは、ダイス係数の行列を使用しています。（したがって、実際には、Diceを計算するためにダミーを作成する必要はありません。行列演算を使用すると、おそらく上記の方法よりも速く実行できます。）名目属性の関連付けについては、Diceの関連トピックを参照してください。

ダイスは属性がカテゴリカルである場合の（非）類似性関数が必要な場合に使用する最も明白な測定ですが、他のバイナリ測定を使用できます-公式が名目データに関する考慮事項を満たす場合。

分子内にを含む単純一致（SM、またはランド）ようなメジャーは、0-0を扱うという理由で適していません（両方の個人が行う一致として特定の共通の属性/カテゴリを持たない）。これは元々の名目上の定性的特徴とは明らかにナンセンスです。したがって、ダミー変数のセットで使用する予定の類似性または非類似性の式を確認します。それが同一性の根拠としてを持っている、または暗示する場合は、名目データにその測定値を使用しないでください。たとえば、2乗ユークリッド距離、この式はバイナリデータでだけになり $\frac{a+d}{a+b+c+d}$ $d$ $d$ $b+c$ （この場合、マンハッタン距離またはハミング距離と同義）は、を同一性の基礎として扱います。実際には、。ここで、はバイナリ属性の数です。したがって、ユークリッド距離は情報的にはSMと同等の価値があり、元の公称データには適用されません。 $d$ $d^2 = p(1-SM)$ $p$

しかし ...

私が書いたものにもかかわらず- -バイナリ係数の大多数（また、これらの使用して、私はそれを実現し、前の「理論」段落読ん）実質的にほとんどの時間を行いますが。私は、いくつかの名目変数から得られたダミー変数を使用して、ダイス係数が他のいくつかのバイナリメジャーと厳密に機能的に関連していることを確認して確認しました（頭字語はSPSSでのメジャーのキーワードです）。 $d$

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

クラスタ分析の多くの方法など、近接行列の多くのアプリケーションでは、結果は変化しないか、近接の線形変換（場合によっては単調変換）の下でもスムーズに変化するため、膨大な数に正当化される可能性があります。同じまたは類似の結果を得るためのダイス以外のバイナリメジャー。ただし、最初に、特定のメソッド（たとえば、階層的クラスタリングのリンケージ）が、近接性の特定の変換にどのように反応するかを検討/検討する必要があります。

計画したクラスタリングまたはMDS分析が距離の単調変換に敏感である場合は、上記の表で「単調」として示されているメジャーの使用を控えることをお勧めします（そのため、そうです。、すなわち以前の名目上の属性）。

— ttnphns
ソース

はい、あなたは正しい値です。したがって、1つの属性には3つの可能な値があります

— Jane Doe

同じ属性の2つの値「ball」、「nall」、「pall」があり、これを11 01と00に変換したとします。11と00の間のJaccard距離を測定したいとします。この場合、距離1？a = 0 b = 2 c = 0およびd = 0なので、私にお知らせください！

— Jane Doe

あなたの最後のコメントの要点を逃しています。はっきりとお尋ねください。または、上記の例のデータを5人と2つの名目属性で使用して、どの個人と比較してほしいか、どの非類似度を測定するかを教えてください。

— ttnphns 2013