クラスター分析の前提


16

初歩的な質問をおologiesび申し上げますが、私はこの形式の分析は初めてであり、これまでのところ原則の理解は非常に限られています。

多変量/単変量テストのパラメトリックな仮定の多くがクラスター分析に適用されるかどうか疑問に思っていましたか?私がクラスター分析に関して読んだ情報源の多くは、仮定を特定できていません。

観測の独立性の仮定に特に興味があります。私の理解では、この仮定の違反は(たとえば、ANOVAやMAVOVAで)誤差の推定に影響を与えるため、重大であるということです。私のこれまでの読書から、クラスター分析は大部分が記述的な手法であるように思われます(特定の特定のケースでの統計的推論のみを含む)。したがって、独立性や通常の分散データなどの仮定は必要ですか?

この問題を説明するテキストの推奨事項は大歓迎です。どうもありがとう。

回答:


7

クラスタリング手法は、幾何学的な意味で互いに異常に近い統計単位のグループを探す距離ベースの方法に限定されません。また、密度(特徴空間ではクラスターは「領域」と見なされます)または確率分布に依存するさまざまな手法があります。

後者の場合は、モデルベースのクラスタリングとしても知られています。心理測定学者は、潜在プロファイル分析という用語を使用して、有限混合モデルのこの特定のケースを示します。ここでは、母集団は異なる観察されていないグループまたは潜在クラスで構成され、すべての顕在変数の結合密度はこのクラスの混合であると仮定します-比重。MclustパッケージまたはMplusソフトウェアで適切に実装できます。さまざまなクラス不変共分散行列を使用できます(実際、MclustはBIC基準を使用して、クラスター数を変えながら最適な基準を選択します)。

標準の潜在クラスモデルは、観測されたデータがg個の多変量多項分布の混合物に由来すると仮定しています。優れた概要は、Gilles CeleuxによるModel-based cluster analysis:a Defenseにあります。

これらの方法は分布の仮定に依存しているため、これにより、正式なテストまたは適合度インデックスを使用してクラスターまたはクラスの数を決定することも可能になりますが、距離ベースのクラスター分析では依然として困難な問題ですが、次の記事を参照してくださいこの問題を議論した:

  1. Handl、J.、Knowles、J。、およびKell、DB(2005)。ポストゲノムデータ分析における計算クラスター検証。バイオインフォマティクス21(15)、3201-3212。
  2. Hennig、C.(2007)クラスター安定性のクラスターごとの評価。計算統計とデータ分析52、258から271まで。
  3. Hennig、C.(2008)溶解点と分離の堅牢性:一般的なクラスター分析手法の堅牢性基準。多変量解析のジャーナル99、1154年から1176年。

3

本質的に探索的である非常に多種多様なクラスタリング手法があり、階層ベースであろうとパーティションベースであろうと、分散分析のために満たさなければならない種類の仮定に依存しているとは思いません。

あなたの質問に答えるためにStataの[MV]ドキュメントを見て、私は85ページでこの面白い引用を見つけました:

一部の人は、クラスター分析を実行する人々と同じ数のクラスター分析方法があると言っていますが。これはかなり控えめな表現です!クラスター分析を実行する人よりも、クラスター分析を実行する方法が無限に多く存在します。

その文脈では、クラスタリング方法全体に適用される仮定があることを疑います。テキストの残りの部分は、クラスターを作成するためにメトリック距離である必要もない「非類似度」の何らかの形式が必要であるという一般的なルールとして設定されています。

ただし、1つの例外があります。これは、推定後分析の一部として観測値をクラスタリングする場合です。Stataでは、vceコマンドには同じソースのページ86で次の警告が付いています。

Stataの多数の推定コマンドに精通している場合は、クラスター分析(クラスターコマンド)と多くの推定コマンドで許可されているvce(cluster clustvar)オプションを区別するよう注意してください。クラスター分析は、データ内のグループを見つけます。さまざまな推定コマンドで許可されているvce(cluster clustvar)オプションは、オプションによって定義されたグループ全体で観測値が独立しているが、それらのグループ内で必ずしも独立しているわけではないことを示します。clusterコマンドによって生成されるグループ化変数は、vce(cluster clustvar)オプションの使用の背後にある仮定をめったに満たしません。

それに基づいて、その特定のケース以外では、独立した観測は必要ないと仮定します。直感的に、クラスター分析を使用して、観測値が独立しているかどうかを正確に調べることもできます。

私はでは、以下のことを言及することで終了しますページ356Stataの持つ統計彼はこの問題についてより深くに入りませんが、ローレンス・ハミルトンは、クラスタ分析の「必須」側面として標準化された変数に言及し、。


2

空間クラスター分析は、地理的に参照される観測を使用し、探索分析に限定されないクラスター分析のサブセットです。

例1

公正な選挙区を作るために使用できます。

例2

ローカル空間自己相関測度は、クラスタリングのAMOEBAメソッドで使用されます。AldstadtとGetisは結果のクラスターを使用して、空間回帰で指定できる仮説をテストするための空間重み行列を作成します。

Aldstadt、Jared、およびArthur Getis(2006)「AMOEBAを使用して空間ウェイトマトリックスを作成し、空間クラスターを識別する」を参照してください。Geographical Analysis 38(4)327-343

例3

一連の基準与えられたランダムに成長する地域に基づくクラスター分析は、学校の出席ゾーンや選挙区などの制度上のゾーンの設計における不公平を示す確率的な方法として使用できます。


1

クラスター分析には、仮説テスト自体は含まれませんが、実際には探索的分析のためのさまざまな類似性アルゴリズムの単なるコレクションです。仮説検定をいくぶん強制することもできますが、クラスターの変更はパラメーターの変更に非常に敏感であるため、結果はしばしば矛盾します。

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introclus_sect010.htm

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.