カテゴリー変数を使用した階層的クラスタリング


11

階層的クラスタリングでカテゴリー変数を使用できますか?連続変数のみが使用されると聞いたことがありますが、カテゴリ変数について議論している人々も使用する場合と使用しない場合があることを見てきました。誰でも洞察を提供できますか?


2
もちろん、カテゴリカルデータはクラスター分析の対象となることが多く、特に階層型です。バイナリ変数(カテゴリ変数の同腹であるダミーセットを含む)には、多くの近接測度が存在します。エントロピー対策も。ケースのクラスターは、属性の頻繁な組み合わせであり、さまざまな測定により、頻度の計算に特定のスパイスが与えられます。カテゴリカルデータのクラスタリングに関する1つの問題は、解の安定性です。そして、この最近の質問は変数相関の問題を提起します。
ttnphns 2016年

hierarchical clustering categorical関連するスレッドを読むには、このサイトを検索してください。
ttnphns 2016年


これは正確には重複しているとは思いません。リンクされている質問はRに関するものであり、現在は話題から外れている可能性もあります。この質問は統計についてであり、ソフトウェアパッケージについては触れていません。
Peter Flom

@ttnphns:回答としてコメントを投稿しますか?まったく答えないよりも、短い答えを持つ方が良いです。より良い答えを持っている人なら誰でも投稿できます。
Stephan Kolassa

回答:


3

もちろん、カテゴリカルデータは、多くの場合、特に階層型のクラスター分析の対象になります。バイナリ変数には多数の近接測度が存在します(カテゴリ変数の同腹であるダミーセットを含みます)。エントロピー対策も。ケースのクラスターは、属性の頻繁な組み合わせであり、さまざまな測定により、頻度の計算に特定のスパイスが与えられます。カテゴリカルデータのクラスタリングに関する1つの問題は、解の安定性です。そして、この最近の質問は変数相関の問題を提起します。


このコメントは、多かれ少なかれ、この質問に対する回答であるため、@ ttnphnsがコミュニティWikiの回答としてこのコメントをコピーしました。答えと質問の間に劇的なギャップがあります。問題の少なくとも一部は、いくつかの質問がコメントで回答されていることです。質問に回答したコメントが代わりに回答である場合、未回答の質問が少なくなります。
mkt-モニカを復活させる
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.