5
離散変数と連続変数の両方を使用したデータセットのクラスタリング
10個の次元を持つデータセットXがあり、そのうち4個は離散値です。実際、これらの4つの離散変数は序数です。つまり、値が大きいほど意味が高い/良いことを意味します。 これらの離散変数のうち2つは、これらの変数のそれぞれについて、たとえば11から12の距離が5から6の距離と同じではないという意味でカテゴリです。必ずしも線形ではありません(実際、実際には定義されていません)。 私の質問は: 離散変数と連続変数の両方を含むこのデータセットに、一般的なクラスタリングアルゴリズム(たとえば、K-Means、次にGaussian Mixture(GMM))を適用することをお勧めしますか? そうでない場合: 離散変数を削除して、連続変数のみに焦点を合わせる必要がありますか? 連続データをより良く離散化し、離散データにクラスタリングアルゴリズムを使用する必要がありますか?