k-meansクラスターパーティションの最も重要な特徴の推定


19

データセットのどの特徴/変数がk-meansクラスターソリューション内で最も重要/支配的であるかを判断する方法はありますか?


1
「重要/支配的」をどのように定義しますか?クラスタを区別するのに最も便利なのですか?
フランクデルノンクール

3
はい、最も有用なのは私が意図したものです。これを理解する上での私の問題の一部は、それをどのように表現するかだと思います。
user1624577

説明をありがとう。機械学習でこの問題を指定する通常の用語は、機能選択です。
フランクダーノンクール

回答:


8

書籍Burns、Robert P.、Richard Burnsから、各機能(=変数=ディメンション)の有用性を定量化する1つの方法 SPSSを使用したビジネス調査方法と統計。Sage、2008.ミラー)、有用性は、クラスターを区別する機能の識別力によって定義されます。

通常、ANOVAを使用して各ディメンションの各クラスターの平均を調べ、クラスターがどれほど明確であるかを評価します。理想的には、分析で使用されるすべてのディメンションではないにしても、ほとんどのディメンションで大幅に異なる平均を取得します。各次元で実行されるF値の大きさは、それぞれの次元がクラスターをどれだけうまく区別しているかを示します。

別の方法は、特定の機能を削除し、これが内部品質指標にどのように影響するかを確認することです。最初のソリューションとは異なり、分析する各機能(または機能セット)のクラスタリングをやり直す必要があります。

ご参考までに:


4
この文脈では1が必要があることを追加することが非常に重要であるない統計的有意性の指標として、それらのF(またはp)の値(すなわち相対人口)を取るのではなく、単に違いの大きさの指標として。
ttnphns

3

どの変数がどのクラスターにとって重要であるかにさらに焦点を当てる他の2つの可能性を考えることができます。

  1. マルチクラス分類。同じクラス(クラス1など)のクラスターxメンバーに属するオブジェクトと、2番目のクラス(クラス2など)の他のクラスターメンバーに属するオブジェクトを考えます。クラスメンバーシップを予測するために分類器をトレーニングします(たとえば、クラス1とクラス2)。分類器の変数係数は、xをクラスター化するオブジェクトのクラスタリングにおける各変数の重要性を推定するのに役立ちます。他のすべてのクラスターに対してこのアプローチを繰り返します。

  2. クラスター内変数の類似性。すべての変数について、各オブジェクトとその重心の平均類似度を計算します。重心とそのオブジェクト間の類似性が高い変数は類似性が低い変数よりもクラスタリングプロセスにとって重要である可能性があります。もちろん、類似性の大きさは相対的ですが、変数は各クラスター内のオブジェクトをクラスター化するのに役立つ度合いによってランク付けできるようになりました。


0

これは非常に簡単な方法です。2つのクラスター中心間のユークリッド距離は、個々のフィーチャ間の平方差の合計であることに注意してください。次に、各特徴の重みとして平方差を使用できます。

ユークリッド距離

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.