Rでの混合データのための堅牢なクラスター法


12

私は小さなデータセット(4つの区間変数の64の観測値と1つの3因子のカテゴリ変数)をクラスター化しようとしています。現在、私はクラスター分析に非常に慣れていませんが、階層的クラスター化またはk-meansが唯一の利用可能なオプションであった時代からかなりの進歩があったことを認識しています。特に、chl指摘されているように、「クラスターまたはクラスの数を決定するための適合度インデックス」の使用を可能にする、モデルベースのクラスタリングの新しい方法が利用できるようです。

ただし、モデルベースのクラスタリング用の標準Rパッケージはmclust、混合データ型のモデルには適合しないようです。fpcモデルがしますが、トラブルのモデルをフィッティングを持って、私はので、連続変数の非ガウス的性質の疑いがあります。モデルベースのアプローチを続行する必要がありますか?できればRを使い続けたいです。私が見るように、私にはいくつかのオプションがあります:

  1. 3レベルのカテゴリ変数を2つのダミー変数に変換し、を使用しますmclust。これが結果にバイアスをかけるかどうかはわかりませんが、そうでない場合はこれが私の推奨オプションです。
  2. 連続変数をどうにかして変換し、fpcパッケージを使用します。
  3. まだ遭遇していない他のRパッケージを使用します。
  4. Gowerの測度を使用して非類似度行列を作成し、従来の階層的または再配置クラスター技術を使用します。

stats.seハイブマインドにはここで何か提案がありますか?


カテゴリカルデータをダミーコード(ホットエンコードされたもの)に変換するには、dummy.data.frame関数を使用できます。入力として、混合データを提供し、出力としてカテゴリカルデータのみをエンコードできます。
Naghmeh

回答:


7

後続の階層的クラスタリングでGowerを使用することをお勧めします。階層的クラスタリングは、オブジェクトの数が少ない(64など)場合に、最も柔軟で適切な方法です。カテゴリー変数が名義である場合、Gowerは内部的にそれをダミー変数に再コード化し、それらに基づいて(Gowerの一部として)ダイスの類似性をベースにします。変数が序数の場合は、Gower係数の最新バージョンでも対応できることを知っておく必要があります。

クラスターの「最適な」数を決定するための多数のインデックスについては、それらのほとんどは、このまたはそのクラスター化アルゴリズムとは無関係に存在します。後者は個別のパッケージとして存在する可能性があるため、このようなインデックスを必ず組み込むクラスタリングパッケージを探す必要はありません。クラスタリングパッケージの後にある範囲のクラスターソリューションを残し、別のパッケージのインデックスでそれらを比較します。


ヒントをありがとう、私はこのルートを下って行くことになりました。
fmark 2011
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.