ほとんどの古典的なクラスタリングおよび次元削減アルゴリズム(階層的クラスタリング、主成分分析、k-means、自己組織化マップ...)は数値データ専用に設計されており、それらの入力データはユークリッド空間の点と見なされます。
これはもちろん問題です。多くの現実世界の質問には混合データが含まれているためです。たとえば、バスを勉強する場合、高さと長さ、モーターサイズは数字になりますが、色(カテゴリ変数:青/ red / green ...)および容量クラス(順序変数:小/中/大容量)。具体的には、これらのさまざまなタイプの変数を同時に調べたい場合があります。
たとえば、階層型クラスタリングまたは多次元スケーリングにプラグインするGowerの非類似性、または距離行列を入力として使用する他の方法を使用して、従来のクラスタリングアルゴリズムを混合データに拡張する方法がいくつかあります。または、たとえばこのメソッド、混合データへのSOMの拡張。
私の質問は、なぜ混合変数にユークリッド距離を使用できないのですか?またはなぜそうするのが悪いのですか?カテゴリ変数をダミーエンコードし、すべての変数を観測間の距離で同様の重みを持つように正規化し、これらの行列で通常のアルゴリズムを実行できないのはなぜですか?
それは本当に簡単であり、一度も行われたことがないので、それは非常に間違っていると思いますが、誰がその理由を教えてもらえますか?および/またはいくつかのrefを教えてください?ありがとう