1
Rでの混合データのための堅牢なクラスター法
私は小さなデータセット(4つの区間変数の64の観測値と1つの3因子のカテゴリ変数)をクラスター化しようとしています。現在、私はクラスター分析に非常に慣れていませんが、階層的クラスター化またはk-meansが唯一の利用可能なオプションであった時代からかなりの進歩があったことを認識しています。特に、chlで指摘されているように、「クラスターまたはクラスの数を決定するための適合度インデックス」の使用を可能にする、モデルベースのクラスタリングの新しい方法が利用できるようです。 ただし、モデルベースのクラスタリング用の標準Rパッケージはmclust、混合データ型のモデルには適合しないようです。fpcモデルがしますが、トラブルのモデルをフィッティングを持って、私はので、連続変数の非ガウス的性質の疑いがあります。モデルベースのアプローチを続行する必要がありますか?できればRを使い続けたいです。私が見るように、私にはいくつかのオプションがあります: 3レベルのカテゴリ変数を2つのダミー変数に変換し、を使用しますmclust。これが結果にバイアスをかけるかどうかはわかりませんが、そうでない場合はこれが私の推奨オプションです。 連続変数をどうにかして変換し、fpcパッケージを使用します。 まだ遭遇していない他のRパッケージを使用します。 Gowerの測度を使用して非類似度行列を作成し、従来の階層的または再配置クラスター技術を使用します。 stats.seハイブマインドにはここで何か提案がありますか?