クラスター分析で変数に重みを割り当てる


11

クラスター分析で変数に異なる重みを割り当てたいのですが、私のプログラム(Stata)にはこのオプションがないようです。そのため、手動で行う必要があります。

4つの変数A、B、C、Dを想像してください。これらの変数の重みは

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

次の2つの方法のいずれかで実際にうまくいくかどうか疑問に思っています。

  1. 最初に、すべての変数を標準化します(たとえば、範囲で)。次に、各標準化変数に重みを掛けます。次に、クラスター分析を行います。
  2. すべての変数に重みを掛けて、後で標準化します。次に、クラスター分析を行います。

それとも両方のアイデアは完全にナンセンスですか?

[編集] 使用したいクラスタリングアルゴリズム(3種類を試してみます)は、k平均、加重平均リンケージ、および平均リンケージです。加重平均リンケージを使用して、後でk-meansにプラグインするクラスターの適切な数を決定する予定です。


1
通常、どちらの方法も正しくありません。変数の値の乗算は、クラスタリングにおける変数の重要度の重み付けとは異なります。プログラムに重み付けオプションがない場合は、必要に応じてデータを使用して時々実行できますが、これはクラスタリングの正確な性質に依存します。したがって、(質問に)クラスタリングの詳細を記述してください:使用するアルゴリズムと方法。
ttnphns 2013年

2
変数に重みを付ける最も簡単で普遍的な方法(および重みは整数であるか整数にすることができます)は、単に変数にそれらの重みを掛けて伝播することです。この例では、クラスタリングで50 As、25 B、10 C、15 Dを使用できます。
ttnphns 2013年

8
または、代替方法:ユークリッドメジャーに基づくクラスタリングを使用する場合、またはk平均を使用する場合は、各変数にその重みの平方根を掛けます。もちろん、このマルチピックは、クラスタリングの前に実行したい前処理(標準化など)のに行う必要があります。
ttnphns 2013年

回答:


7

変数に重みを割り当てる1つの方法は、そのスケールを変更することです。このトリックは、あなたが言及したクラスタリングアルゴリズム、つまりvizに対して機能します。k-means、加重平均リンケージおよび平均リンケージ。

カウフマン、レナード、ピーターJ.ルセウ。「データ内のグループの検索:クラスター分析の概要」(2005)-ページ11:

測定単位の選択により、変数の相対的な重みが生じます。変数を小さい単位で表すと、その変数の範囲が大きくなり、結果の構造に大きな影響を与えます。一方、標準化することにより、客観性を達成することを期待して、すべての変数に同じ重みを与える試みが行われます。そのため、事前知識のない開業医が使用する場合があります。ただし、特定のアプリケーションでは一部の変数が他の変数よりも本質的に重要であり、重みの割り当ては主題の知識に基づいている必要がある場合があります(たとえば、Abrahamowicz、1985を参照)。

一方、変数のスケールに依存しないクラスタリング手法を考案する試みがありました(Friedman and Rubin、1967)。Hardy and Rasson(1982)の提案は、クラスターの凸包の総体積を最小化するパーティションを検索することです。原則として、そのような方法はデータの線形変換に関して不変ですが、残念ながらその実装のためのアルゴリズムは存在しません(2次元に制限される近似を除いて)。したがって、標準化のジレンマは現在避けられないように見え、この本で説明されているプログラムはユーザーに選択を任せています

Abrahamowicz、M。(1985)、非類似度を測定するための非数値的なpnon情報の使用、心理測定学会と分類学会の第4回ヨーロッパ会議で発表された論文、7月2-5日、ケンブリッジ(イギリス)。

フリードマン、HP、およびルービン、J。(1967)、データをグループ化するためのいくつかの不変の基準について。J アメール。統計学者。ASSOC6。、2、1159-1178。

Hardy、A.、and Rasson、JP(1982)、Une nouvelle approche des problemes de classification automatique、Statist。肛門。ドニーズ、7、41-56。


1
あなたの最初の参考文献はどういうわけか壊れています:Leonard KaufmanとPeter J. Rousseeuwはあなたがリンクしている本の著者です。
Nick Cox

これを指摘してくれてありがとう...私はLavoisierにだまされて、「Auteurs:SEWELL Grandville、ROUSSEEUW Peter J.」のページで間違いを犯しました。
フランクダーノンコート2013年

@FranckDernoncourt、ありがとう!変数のスケール(したがって範囲)がその重みを決定する場合、最初の質問で1)に近づかないでしょう。
SPi 2013年

2
はい、アプローチ1は正しいものであり、カウフマン、レナード、ピーターJ.ルソーウが答えで引用した段落で言っていることに対応しています。標準化によって重みが削除されるため、アプローチ2は役に立たないでしょう:)
フランクダーノンコート2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.