離散変数と連続変数の両方を使用したデータセットのクラスタリング

33

10個の次元を持つデータセットXがあり、そのうち4個は離散値です。実際、これらの4つの離散変数は序数です。つまり、値が大きいほど意味が高い/良いことを意味します。

これらの離散変数のうち2つは、これらの変数のそれぞれについて、たとえば11から12の距離が5から6の距離と同じではないという意味でカテゴリです。必ずしも線形ではありません（実際、実際には定義されていません）。

私の質問は：

離散変数と連続変数の両方を含むこのデータセットに、一般的なクラスタリングアルゴリズム（たとえば、K-Means、次にGaussian Mixture（GMM））を適用することをお勧めしますか？

そうでない場合：

離散変数を削除して、連続変数のみに焦点を合わせる必要がありますか？
連続データをより良く離散化し、離散データにクラスタリングアルゴリズムを使用する必要がありますか？

— ptikobj
ソース

3

適切な距離測定（多くの場合、クラスタリングで最も難しいタスク）を見つける必要があります。データ項目がどれだけ似ている（またはそうでない）かを正確かつ正確に説明する距離測定を見つけることができれば、問題はないはずです。

— アンドリュー

これらの2つのカテゴリ変数について言えば、実際にはそれらを順序型と説明しています。さて、残りの2つの「順序」変数はどうですか？それらとどう違うのですか？

— ttnphns

それらは離散的でもありますが、両方とも意味のある距離関数を持っています。つまり、間隔ベースです（間隔ベースの定義を台無しにしていない場合）。

— ptikobj

14

したがって、適切な距離測定が必要であると言われています。リードは次のとおりです。

そして、もちろん：マハラノビス距離。

— エムレ
ソース

7

私は過去にこの種の問題に対処しなければなりませんでしたが、2つの興味深いアプローチがあると思います。

連続化：シンボリック属性を一連の整数で変換します。これを行うにはいくつかの方法があり、そのすべてがこのペーパーで説明されています。NBF、VDM、MDVアルゴリズムを試すことができます。
離散化：連続属性を記号値に変換します。繰り返しますが、多くのアルゴリズム、およびこれに関する優れた講義は、この記事になります。最も一般的に使用される方法はHolteの1Rですが、確実に知る最良の方法は、EWD、EFD、ID、LD、NDDなどのアルゴリズムに対するROC曲線を調べることです。

すべての機能を同じスペースに配置すると、通常のクラスタリングの問題になります。

連続化と離散化のどちらを選択するかは、データセットとフィーチャの外観に依存するため、言うのは少し難しいですが、そのトピックに関する記事を読むことをお勧めします。

— チャールズ・メンガイ
ソース

4

K-meansは、（無意味な）平均を計算するため、明らかに意味をなしません。GMMについても同様です。

DBSCANなどの適切な距離関数を使用して、距離ベースのクラスタリングアルゴリズムを試してください。

主な課題は、距離関数を見つけることです！

別の距離関数をk-meansに入れることもできますが、おそらくあまり意味をなさない平均値を計算します（おそらく、離散値の距離関数で混乱します）。

とにかく、最初に「類似」とは何かを定義することに焦点を当てます。次に、この類似の定義を使用してクラスター化します！

— アノニムース
ソース

2

sizeの距離行列での作業に慣れている場合はnum_of_samples x num_of_samples、を使用することもできますrandom forests。

ここをクリックして、参考文献のタイトルをご覧くださいUnsupervised learning with random forest predictors。

アイデアはshuffling、元のデータセットの値によって合成データセットを作成し、両方を分離するための分類器をトレーニングすることです。分類中にを取得しinter-sample distance matrix、これでお気に入りのクラスタリングアルゴリズムをテストできます。

— srctaha
ソース

-2

採用される混合アプローチ：1）分類手法（C4.5決定木）を使用して、データセットを2つのクラスに分類します。2）完了したら、カテゴリ変数を残し、クラスタリングの連続変数を使用します。

— スワプニル・ソニ
ソース

私はあなたの提案に従うことができませんでした。どの2つのクラス、そしてそれはどのように役立ちますか？

— KarthikS

Swapnil Soniが言う必要があるのは、分類手法を使用して2つのクラスに分類することです。その後、分類出力のラベルをバイナリ変数として使用できます。したがって、すべてのカテゴリ変数の代わりに、指示的なバイナリ変数を取得してから、クラスタリングアルゴリズムでデータを続行できます（すべての連続プラス1バイナリ変数で構成されます）。私の解釈は間違っている可能性があります。

— -Tusharshar

まったく問題ありません！

— Swapnilソニ