10個の次元を持つデータセットXがあり、そのうち4個は離散値です。実際、これらの4つの離散変数は序数です。つまり、値が大きいほど意味が高い/良いことを意味します。
これらの離散変数のうち2つは、これらの変数のそれぞれについて、たとえば11から12の距離が5から6の距離と同じではないという意味でカテゴリです。必ずしも線形ではありません(実際、実際には定義されていません)。
私の質問は:
- 離散変数と連続変数の両方を含むこのデータセットに、一般的なクラスタリングアルゴリズム(たとえば、K-Means、次にGaussian Mixture(GMM))を適用することをお勧めしますか?
そうでない場合:
- 離散変数を削除して、連続変数のみに焦点を合わせる必要がありますか?
- 連続データをより良く離散化し、離散データにクラスタリングアルゴリズムを使用する必要がありますか?