データセットのどの特徴/変数がk-meansクラスターソリューション内で最も重要/支配的であるかを判断する方法はありますか?
データセットのどの特徴/変数がk-meansクラスターソリューション内で最も重要/支配的であるかを判断する方法はありますか?
回答:
書籍Burns、Robert P.、Richard Burnsから、各機能(=変数=ディメンション)の有用性を定量化する1つの方法 。SPSSを使用したビジネス調査方法と統計。Sage、2008.(ミラー)、有用性は、クラスターを区別する機能の識別力によって定義されます。
通常、ANOVAを使用して各ディメンションの各クラスターの平均を調べ、クラスターがどれほど明確であるかを評価します。理想的には、分析で使用されるすべてのディメンションではないにしても、ほとんどのディメンションで大幅に異なる平均を取得します。各次元で実行されるF値の大きさは、それぞれの次元がクラスターをどれだけうまく区別しているかを示します。
別の方法は、特定の機能を削除し、これが内部品質指標にどのように影響するかを確認することです。最初のソリューションとは異なり、分析する各機能(または機能セット)のクラスタリングをやり直す必要があります。
ご参考までに:
どの変数がどのクラスターにとって重要であるかにさらに焦点を当てる他の2つの可能性を考えることができます。
マルチクラス分類。同じクラス(クラス1など)のクラスターxメンバーに属するオブジェクトと、2番目のクラス(クラス2など)の他のクラスターメンバーに属するオブジェクトを考えます。クラスメンバーシップを予測するために分類器をトレーニングします(たとえば、クラス1とクラス2)。分類器の変数係数は、xをクラスター化するオブジェクトのクラスタリングにおける各変数の重要性を推定するのに役立ちます。他のすべてのクラスターに対してこのアプローチを繰り返します。
クラスター内変数の類似性。すべての変数について、各オブジェクトとその重心の平均類似度を計算します。重心とそのオブジェクト間の類似性が高い変数は、類似性が低い変数よりもクラスタリングプロセスにとって重要である可能性があります。もちろん、類似性の大きさは相対的ですが、変数は各クラスター内のオブジェクトをクラスター化するのに役立つ度合いによってランク付けできるようになりました。