データ変数が混在するデータのクラスタリングをR内で実行できるかどうか疑問に思います。つまり、数値変数とカテゴリ変数の両方を含むデータセットがあり、それらをクラスター化する最適な方法を見つけています。SPSSでは、2ステップクラスターを使用します。Rで同様の手法を見つけることができるかどうか疑問に思います。poLCAパッケージについて言われましたが、よくわかりません...
データ変数が混在するデータのクラスタリングをR内で実行できるかどうか疑問に思います。つまり、数値変数とカテゴリ変数の両方を含むデータセットがあり、それらをクラスター化する最適な方法を見つけています。SPSSでは、2ステップクラスターを使用します。Rで同様の手法を見つけることができるかどうか疑問に思います。poLCAパッケージについて言われましたが、よくわかりません...
回答:
これは遅くなるかもしれませんが、klaR(http://cran.r-project.org/web/packages/klaR/index.html)を試してください
install.packages("klar")
これは、変数間の距離δに非階層K-モードは、距離の関数としての単純なマッチングに基づいているアルゴリズム使用するM 2つのデータポイントのは及びで与えられます。y
パッケージに問題があります。つまり、2つのデータポイントがクラスター中心までの距離が同じ場合、ランダムポイントではなくデータの最初のポイントが選択されますが、コードのビットを簡単に変更できます。
混合変数クラスタリングに対応するには、コードに移動し、距離関数を変更して、数値および非数値のモードと変数を識別する必要があります。
複数のコレスポンデンス分析を使用して、カテゴリ変数から連続ディメンションを作成し、2番目のステップでそれらを数値変数とともに使用できます。
まあ、あなたは確かにできます。カテゴリー変数を人工的に数値化することにより。または、距離行列ベースのクラスタリングを使用します(fpcはおそらくそれを行うことができます)。あなたが最初に答えようとするべき質問は、それは実際に理にかなっていますか?
2 OTUsのためにあなたがガウアーのユニバーサル類似度係数を使用することができる(参照Sneath氏・ソーカル1973、頁135-136)、及びである すべての文字。
重みは、比較が有効かどうか(データが欠落しているか、両方のOTUにバイナリ文字がない)に応じて、1または0です。より複雑な計量スキームが公開されています。
は
バイナリ変数:一致の場合は1、不一致の場合は0(一致しない場合はが0に設定されている場合、Jaccardの係数に相当)
多状態文字(名義または序数):等式の場合は1、その他の場合は0(単純なマッチング係数と同等)
基数文字:とは文字の範囲(母集団または標本、見本)。 Rii
の良い点は、すべての種類のデータを処理できるだけでなく、欠落データに対しても堅牢であることです。また、正の半正相似行列が生成されます。つまり、OTUはユークリッド空間の点で表されます(少なくとも、多くのデータが欠落している場合)。
OTU間の距離はで表すことができます
ここでは、kプロトタイプクラスタリングの方が適している場合があります。kモードとk-meansを組み合わせて、数値データとカテゴリデータが混在するクラスターを作成できます。Rの場合、パッケージ「clustMixType」を使用します。
https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf