連続変数とカテゴリ変数が混在するデータのクラスタリング


8

人間の行動のいくつかの側面を表すデータがあります。私はそれを(監視なしで)ある種の行動プロファイルにクラスター化したいと考えています。現在、私の変数の一部はカテゴリカル(2つ以上のカテゴリを持つ)であり、一部は連続的です(ほとんどはパーセンテージです)。いくつかの変数はさらに複雑で、1つのカテゴリーにはさらに連続的であり、もう1つのカテゴリーにはそのような追加データはありません。

私の質問は、このデータを分類する方法についてです。それを扱う(一般的な?)アプローチは何ですか?

コードや何かは必要ありませんが、この課題への対処方法をさらに理解するのに役立つ参照や指示が必要です。

そのRような分析を容易にする関数を知っていれば、それはすばらしいことですが、それは必須ではありません。

ありがとう。


2
ガワー類似度測定は、連続的な、序数の、バイナリの、名目上のデータを同時に取得できます。階層化やmedoidなどのクラスタリング手法を使用して、近接行列を分析できます。他のクラスタリング手法(TwoStepクラスターなど)は、連続変数と名目変数を一度に取ることができません。
ttnphns 2014年

パーセンテージまたはカウントに関しては、特別なカイ2乗メジャーが計算されることもあり、連続データのように通常のユークリッド距離が使用されることもあります。
ttnphns 2014年

4
全体として、混合タイプのデータのクラスタリングはトリッキーなことであり、おそらく経験豊富なデータアナリストだけが対象となるかもしれません。一方、標準化、解釈、機能寄与分析の問題があるため、そのようなデータのクラスタリングは、多くの場合、まったく良い考えではありません。
ttnphns 2014年

回答:


1
  1. 過ごしたくさんのデータに類似性を理解する上での時間のを。
  2. 特定のデータセット用に設計された特殊な類似性メジャーで類似性の概念を形式化します(通常の類似性は使用できません)。
  3. 階層的クラスタリング、DBSCAN、アフィニティ伝播、スペクトルクラスタリングなど、任意の類似要素を使用できるクラスタリングアルゴリズムを使用します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.