統計的有意性検定を使用してクラスター分析結果を検証する


13

クラスター分析の結果を検証するために、統計的有意性検定(SST)の使用を調査しています。このトピックに関するいくつかの論文を見つけました。

  • 高次元、低サンプルサイズデータのクラスタリングの統計的重要性」、Liu、Yufeng et al。(2008)
  • クラスター分析におけるいくつかの有意性検定について」、Bock(1985)

しかし、クラスター分析の結果を検証するのにSSTは適切でないと主張する文献を見つけることに興味があります。私がこれを主張している唯一のソースは、ソフトウェアベンダーのウェブページです

明確にするために:

クラスター分析の結果、重要なクラスター構造が見つかったかどうかをテストすることに興味があるので、「探索的データの結果の事後テストの可能性に関する懸念を支持または反論する論文を知りたい」クラスタを見つけるために使用される分析」。

たとえば、Milligan and Hirtleによる2003年の「クラスタリングと分類方法」という論文を見つけました。たとえば、データにはグループへのランダムな割り当てがないため、ANOVAの使用は無効な分析になります。


これはいい質問ですが、二分法があるように見えるように表現されていることを指摘する価値があります。クラスタリングの重要性をテストできるかできないかです。ただし、「クラスター分析」はさまざまなことを意味するため、状況は異なります。参照論文では、クラスタリングの証拠があるかどうかのテストに焦点が当てられています。ソフトウェアマニュアルでは、クラスタを見つけるために使用される探索的データ分析の結果の事後テストの可能性について懸念が正しく表明されています。ここに矛盾はありません。
whuber

回答ありがとうございます。あなたは私が質問を提起した方法について正しいです。クラスター分析の結果として重要なクラスター構造が見つかったかどうかをテストすることに興味があるので、「探索的データの結果の事後テストの可能性に関する懸念を支持または反論する論文を知りたい」クラスタを見つけるために使用される分析」。たとえば、Milligan and Hirtleによる2003年の「クラスタリングと分類方法」の論文を見つけました。たとえば、データにはグループへのランダムな割り当てがないため、ANOVAの使用は無効な分析になります。
DPS

役に立つかもしれません:科学に盲目:不十分に検証されたクラスター分析ソリューションの管理上の結果、mrs.org.uk
ijmr_article / article /

回答:


3

同じデータを使用して定義されたグループの分布の違いを(単純に)テストできないことは明らかです。これは、「選択的テスト」、「二重浸漬」、「循環推論」などとして知られています。

たとえば、データの「背の高い」人と「背の低い」人の身長でt検定を実行します。nullは(ほとんど)常に拒否されます。

そうは言っても、実際にはテスト段階でクラスタリング段階を説明するかもしれません。しかし、私はそれを行う特定のリファレンスに精通していませんが、これは行われるべきだったと思います。


異なるクラスターグループに有意性検定を適用する場合、nullはほぼ常に拒否されることに同意します。けれども–これは、クラスタリングが実際にCAで考慮されるすべての変数のグループをうまく分離することができた場合にのみ該当するはずです。有意差検定を使用して、グループ間で十分に分離されていない変数があるかどうかを判断することはできませんか(各変数に検定を適用することを意味します)。これが推奨されない/賢明でない統計的理由について詳しく説明していただけますか?
ルーク

正式な議論は、各測定の誤差項がゼロを中心にしないことです。私の背の高い/短い例を考えてみましょう:すべての人々は同じ分布から引き出されますが、「背の高い」グループには正の平均の誤差があり、「短い」負の平均の誤差があります。
ジョンロス

0

特定のテストで仮説をテストする代わりに、クラスター間のブートストラップ手段またはその他の要約推定値をお勧めします。たとえば、少なくとも1000サンプルのパーセンタイルブートストラップを使用できます。重要な点は、各ブートストラップサンプルに独立してクラスタリングを適用することです。

このアプローチは非常に堅牢であり、違いの証拠を提供し、クラスター間の大きな違いの主張をサポートします。さらに、別の変数(クラスター間差など)を生成できます。このような差変数のブートストラップ推定は、仮説の正式なテストに似ています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.