私のデータセットには、連続変数と自然離散変数の両方があります。両方のタイプの変数を使用して階層的クラスタリングを実行できるかどうかを知りたいです。はいの場合、どの距離測定が適切ですか?
私のデータセットには、連続変数と自然離散変数の両方があります。両方のタイプの変数を使用して階層的クラスタリングを実行できるかどうかを知りたいです。はいの場合、どの距離測定が適切ですか?
回答:
1つの方法は、複合メジャー1であるGower類似係数を使用することです。量的(格付けスケールなど)、バイナリ(存在/不在など)、名義(ワーカー/教師/書記など)の変数を取ります。後にPodani 2には、順序変数を取るオプションも追加されました。
係数は、式がなくても簡単に理解できます。変数のタイプを考慮に入れて、各変数ごとに個人間の類似性の値を計算し、すべての変数で平均します。通常、Gowerを計算するプログラムを使用すると、変数、つまり合成式への寄与を重み付けできます。ただし、異なるタイプの変数の適切な重み付けは問題であり、明確なガイドラインは存在しません。これにより、Gowerまたはその他の近接プルの「複合」インデックスが直面します。
ガワー類似性のファセット():
(タイプのリストを簡単に拡張できます。たとえば、類似度に変換された正規化カイ2乗距離を使用して、カウント変数の加数を追加できます。)
係数の範囲は0〜1です。
ユークリッド距離(ユークリッド空間をサポートする距離)を使用すると、ほぼすべての古典的なクラスタリング手法が実行できます。含むK-手段(あなたのK-手段プログラムは、コースの距離行列を、処理することができる場合)とのウォード、重心、中央値方法を含む階層的クラスタリング。ユークリッド距離と非ユークリッド距離に基づいたK平均法またはその他の方法を使用して、まだメトリック距離をヒューリスティックに許容できます。非メトリック距離と、そのような方法が用いられなくてもよいです。
ガウアー距離と前の段落のK-手段やウォードのか、そのようなクラスタリングが合法である場合について協議かを数学的に(幾何学)。測定スケール(「精神」)ビューの一方の点は、任意のカテゴリにそれからの平均又はユークリッド距離偏差(ノミナル、バイナリ、ならびに序)データを計算してはなりません。したがってからこのスタンスあなただけのこの視点は、ユークリッド空間が存在する場合であっても、それは粒状化してもよいことを警告し、区などK-によるガウアー係数を処理しないことがあり、滑らかではない(関連参照)。
あなたはこの質問につまずいていると使用するためのダウンロードにどのようなパッケージを迷っている場合はRでメトリックガウアーを、cluster
パッケージには、機能の名前があるデイジー()変数の混合型が使用されるたびに、デフォルトでガウアーのメトリックを使用しています、。または、Gowerのメトリックを使用するように手動で設定できます。
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
。