人間の行動のいくつかの側面を表すデータがあります。私はそれを(監視なしで)ある種の行動プロファイルにクラスター化したいと考えています。現在、私の変数の一部はカテゴリカル(2つ以上のカテゴリを持つ)であり、一部は連続的です(ほとんどはパーセンテージです)。いくつかの変数はさらに複雑で、1つのカテゴリーにはさらに連続的であり、もう1つのカテゴリーにはそのような追加データはありません。
私の質問は、このデータを分類する方法についてです。それを扱う(一般的な?)アプローチは何ですか?
コードや何かは必要ありませんが、この課題への対処方法をさらに理解するのに役立つ参照や指示が必要です。
そのR
ような分析を容易にする関数を知っていれば、それはすばらしいことですが、それは必須ではありません。
ありがとう。
2
ガワー類似度測定は、連続的な、序数の、バイナリの、名目上のデータを同時に取得できます。階層化やmedoidなどのクラスタリング手法を使用して、近接行列を分析できます。他のクラスタリング手法(TwoStepクラスターなど)は、連続変数と名目変数を一度に取ることができません。
—
ttnphns 2014年
パーセンテージまたはカウントに関しては、特別なカイ2乗メジャーが計算されることもあり、連続データのように通常のユークリッド距離が使用されることもあります。
—
ttnphns 2014年
全体として、混合タイプのデータのクラスタリングはトリッキーなことであり、おそらく経験豊富なデータアナリストだけが対象となるかもしれません。一方、標準化、解釈、機能寄与分析の問題があるため、そのようなデータのクラスタリングは、多くの場合、まったく良い考えではありません。
—
ttnphns 2014年