回答:
技術的には、名義属性の個人間の不一致メジャーを計算するために、ほとんどのプログラムは、最初に各名目変数をダミーのバイナリ変数のセットに再コード化してから、バイナリ変数のメジャーを計算します。これは、頻繁に使用されるバイナリの類似性と非類似性の測定値の式です。
ダミー変数(ワンホットとも呼ばれます)とは何ですか?以下は5人の個人、2つの名目変数です(Aは3つのカテゴリー、Bは2つのカテゴリー)。Aの代わりに作成された3つのダミー、Bの代わりに作成された2つのダミー。
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(ダミーの回帰で通常行うように、「冗長」として1つのダミー変数を削除する必要はありません。特別な状況ではそのオプションを検討する場合がありますが、クラスタリングでは実践されていません。)
バイナリ変数には多くの尺度がありますが、それらすべてが論理的にダミーのバイナリ変数、つまり以前の名目変数に適しているわけではありません。名目変数の場合、「2人の個人が一致する」という事実と「2人の個人が一致しない」という事実は同等に重要です。しかし、人気のあるJaccardメジャー検討してください。
ここで、ミスマッチは2つのバリアントおよび構成されます。しかし、すでに述べたように、私たちにとって、それらのそれぞれはと一致と同じように重要です。したがってを2倍に重み付け、式(fice)を取得する必要があります。これは、Dice(Lee Diceの後)またはCzekanovsky-Sorensenメジャーとして知られています。これはダミー変数に適しています。実際、有名な合成ガワー係数(名目属性で推奨)は、すべての属性が名目である場合、Diceとまったく同じです。また、ダミー変数の場合、ダイスメジャー(個人間)= 落合メジャー(これは単にc a a 2 aコサイン)= Kulczynsky 2メジャー。さらに参考までに、1-ダイス=バイナリランス-ウィリアムズ距離は、ブレイカーティス距離とも呼ばれます。同義語がいくつあるか見てみましょう。あなたはあなたのソフトウェアでその同義語を見つけられるはずです!
ダイス類似係数の直感的な有効性は、それが単に共起比率(または相対一致)であるという事実から来ています。上記のデータスニペットの場合、公称列A
を取り5x5
、1
(両方の個人が同じカテゴリに分類される)または0
(同じカテゴリに分類されない)のいずれかで正方対称行列を計算します。同様にの行列を計算しB
ます。
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
2つの行列の対応するエントリを合計し、2(公称変数の数)で割ります。ここでは、ダイス係数の行列を使用しています。(したがって、実際には、Diceを計算するためにダミーを作成する必要はありません。行列演算を使用すると、おそらく上記の方法よりも速く実行できます。)名目属性の関連付けについては、Diceの関連トピックを参照してください。
ダイスは属性がカテゴリカルである場合の(非)類似性関数が必要な場合に使用する最も明白な測定ですが、他のバイナリ測定を使用できます-公式が名目データに関する考慮事項を満たす場合。
分子内にを含む単純一致(SM、またはランド)ようなメジャーは、0-0を扱うという理由で適していません(両方の個人が行う一致として特定の共通の属性/カテゴリを持たない)。これは元々の名目上の定性的特徴とは明らかにナンセンスです。したがって、ダミー変数のセットで使用する予定の類似性または非類似性の式を確認します。それが同一性の根拠としてを持っている、または暗示する場合は、名目データにその測定値を使用しないでください。たとえば、2乗ユークリッド距離、この式はバイナリデータでだけになり ddb+cdd2=p(1−SM)p(この場合、マンハッタン距離またはハミング距離と同義)は、を同一性の基礎として扱います。実際には、。ここで、はバイナリ属性の数です。したがって、ユークリッド距離は情報的にはSMと同等の価値があり、元の公称データには適用されません。
しかし ...
私が書いたものにもかかわらず- -バイナリ係数の大多数(また、これらの使用して、私はそれを実現し、前の「理論」段落読ん)実質的にほとんどの時間を行いますが。私は、いくつかの名目変数から得られたダミー変数を使用して、ダイス係数が他のいくつかのバイナリメジャーと厳密に機能的に関連していることを確認して確認しました(頭字語はSPSSでのメジャーのキーワードです)。
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
クラスタ分析の多くの方法など、近接行列の多くのアプリケーションでは、結果は変化しないか、近接の線形変換(場合によっては単調変換)の下でもスムーズに変化するため、膨大な数に正当化される可能性があります。同じまたは類似の結果を得るためのダイス以外のバイナリメジャー。ただし、最初に、特定のメソッド(たとえば、階層的クラスタリングのリンケージ)が、近接性の特定の変換にどのように反応するかを検討/検討する必要があります。
計画したクラスタリングまたはMDS分析が距離の単調変換に敏感である場合は、上記の表で「単調」として示されているメジャーの使用を控えることをお勧めします(そのため、そうです。 、すなわち以前の名目上の属性)。