k-meansクラスター分析後のANOVAの適切性


14

K平均分析後のANOVAテーブルの後の通知は、距離を最大化するためにクラスター解がユークリッド距離に基づいて導出されているため、有意水準を同等平均のテストと見なすべきではないことを示しています。クラスタリング変数の平均がクラスター間で異なるかどうかを示すために、どのテストを使用する必要がありますか?この警告はk-means出力の提供されたANOVAテーブルで見ましたが、いくつかの参考文献では、事後ANOVAテストが実行されていることがわかります。k-mean ANOVA出力を無視し、事後検定で一元配置ANOVAを実行し、従来の方法で解釈する必要がありますか?または、F値の大きさだけを暗示したり、どの変数が差に寄与したかを示すことはできますか?別の混乱は、クラスタリング変数がANOVAの仮定に違反して正規分布していないことです。Kruskal-Wallisノンパラメトリック検定を使用できますが、同じ分布に関する仮定があります。特定の変数のクラスター間分布は同じように見えず、一部は正に歪んでおり、一部は負になっています... 1275個の大きなサンプル、5つのクラスター、10個のクラスター変数がPCAスコアで測定されています。


なぜ平均の平等性をテストする必要があるのですか?モデルがサンプルからどのように機能するかをテストすることはできませんか?
ジェームズ

どの変数の平均がクラスター間で異なるか、つまりcluster1のv1の平均がクラスターのv1の平均と異なるかどうか、2、3、4、5を判別したかったのですが、もちろんグラフを作成することでそれを確認できますが、統計的な違いについては伝えません。ANOVAのデータは正規分布の仮定を満たしていませんでしたが、Kruskal Wallisのテストではクラスターグループ間で同じ形状分布の仮定を満たしていたため、統計的な差のテストで混乱しました。
インガ14

1
@Jamesが彼の答えで指摘したように、あなたは「s索している」。可能な限り異なるように事前に選択したグループ(クラスタリング)間の有意性をテストする理由は何でしょうか?いくつかの外部の背景特性に基づいて区別される母集団からのランダムまたは比例サンプリングのマークはありません。
ttnphns 14

答えてくれてありがとう!私の混乱はいくつかの情報源にあるように見えましたが、あなたが指摘したように統計的平均比較はこの状況では適切ではないと思いますが、例えば1本の章からの引用は反対を示しています:理想的には、分析に使用されるすべての次元ではないにしても、ほとんどの次元で大幅に異なる平均を取得します。各次元で実行されるF値の大きさは、それぞれの次元がどれだけうまく区別できるかの指標ですクラスター」
インガ14

1
最も識別力のあるものを見つけるために、クラスターに使用される特性によってクラスター間の違いを評価する権利があります。その際、相対差、F、さらにはp値を計算できます。効果の大きさの指標として。統計的有意性の指標ではありません(母集団を参照)。
ttnphns 14

回答:


13

番号!

あなたは必要があり、クラスタ内のポイント間の有意差のため、クラスタリングや2)狩りを行い、1)同じデータを使用していません。データに実際の構造がなくても、クラスタリングは、近くにあるポイントをグループ化することで構造を課します。これにより、グループ内の分散が縮小され、グループ全体の分散が大きくなります。これにより、誤検出に偏ります。

k

ランダム割り当てのp値の均一な分布と、クラスタリング後のp値の非常に歪んだ(ほぼ0.05以下)分布を示すシミュレーション結果

ここでANOVAについて特別なことは何もありません。ノンパラメトリックテスト、ロジスティック回帰、その他を使用して同様の効果が見られます。一般に、クラスタリングアルゴリズムのパフォーマンスの検証は、特にデータにラベルが付けられていない場合は注意が必要です。ただし、「内部検証」、または外部データソースを使用せずにクラスターの品質を測定する方法はいくつかあります。一般的に、クラスターのコンパクトさと分離可能性に焦点を当てています。Luiらによるこのレビュー。(2010)始めるのに良い場所かもしれません。


4

あなたの本当の問題は、データの盗聴です。入力データセット自体に基づいて観測値がグループ(クラスター)に割り当てられている場合、ANOVAまたはKWを適用できません。できることは、ギャップ統計のようなものを使用してクラスターの数を推定することです。

一方、スヌープされたp値は下方にバイアスされるため、ANOVAまたはKWテストの結果が重要でない場合、「真の」p値はさらに大きくなり、クラスターをマージすることを決定できます。


4

通常のヌル分布を捨てる場合、そのようなアプローチを適用できると思います(つまり、F統計やt統計などの統計を使用します)。

行う必要があるのは、nullがtrueである状況からシミュレートし、手順全体(クラスタリングなど)を適用してから、毎回統計を計算することです。多くのシミュレーションに適用すると、サンプル値を比較できるヌルの下で統計の分布が得られます。データスヌーピングを計算に組み込むことにより、その効果を説明できます。

[あるいは、リサンプリングベースのテスト(置換/ランダム化またはブートストラップに基づく)を開発することもできます。]


2
そう、それがギャップ統計の背後にある考え方です。
ジェームズ14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.