GAP統計をどのように解釈すればよいですか?


10

GAP統計を使用してRのk個のクラスターを推定しました。しかし、それをうまく解釈できるかどうかはわかりません。 ここに画像の説明を入力してください

上記のプロットから、私は3つのクラスターを使用する必要があると想定しています。

ここに画像の説明を入力してください

2番目のプロットから、6つのクラスターを選択する必要があります。GAP統計の正しい解釈ですか?

私はどんな説明にも感謝します。


2つの質問-最初のプロットは何を示していますか?同じデータのGAP統計ですか?なぜ2つ目とは異なるように見えるのですか(これはGAPです)。どのR関数を使用しましたか?2番目の質問:「1標準誤差」ルールを使用して、2番目のプロットに6を選択しましたか?
Deathkill14 14

したがって、クラスタリングには2つの異なるアプローチがあります。最初は時系列に基づくもの-26週間の売上高と、動的タイムワーピングに基づいてデータをクラスター化しました。2番目のアプローチは、動的時間ワーピングにも基づいて、成長曲線パラメーターをクラスター化することでした。clusGapglobalmaxに基づいて使用しましたが、maxSEの実装方法がわかりませんでした。
peterpeter 14

回答:


11

理想的なクラスタリングを取得するには、ギャップ統計を最大化するようにを選択する必要があります。これがTibshirani et al。によって与えられた例です。(2001)彼らの論文では、2つのクラスターを持つ人工データによって形成されたプロット。ご覧のとおり、ギャップ統計は最大化されるため、2は明らかに理想的なです。k k = 2kkk=2

ギャップ統計

ただし、多くの実際のデータセットでは、クラスターは十分に定義されておらず、ギャップ統計の最大化とモデルの節約とのバランスをとることができるようにしたいと考えています。適例:OPの最初の画像。ギャップ統計のみを最大化する場合、30(またはそれ以上!)のクラスターを持つモデルを選択する必要があります。もちろん、そのプロットが増加し続けると仮定すると、結果はあまり役に立ちません。したがって、Tibshiraniは1標準誤差法を提案します

となるように、クラスターサイズが最小のように選択します。 KギャップKギャップK+1-SK+1k^kGap(k)Gap(k+1)sk+1

これは、非公式に、ギャップ統計の増加率が「鈍化」し始めるポイントを識別しています。

したがって、OPの最初の画像で、赤いエラーバーを標準エラーとすると、3はこの基準を満たす最小のです。k

注釈付き画像1

ただし、OPの2番目の画像の場合、ギャップ統計は場合にすぐに減少します。したがって、1 標準誤差の基準を満たす最初のはです。これは、データがクラスター化されるべきではないというプロットの言い方です。k 1k>1k1

結局のところ、最適なを選択する方法は他にもあります。たとえば、R関数の既定の方法では、常にグラフの極大値が検索され、極大値の1つの標準誤差内で最小のが選択されます。この方法を使用して、OPのグラフ1および2に対してそれぞれおよびを選択します。しかし、先ほど述べたように、これには複雑さの問題があるようです。k k = 30 k = 19kclusGapkfirstSEmaxk=30k=19

出典:Robert Tibshirani、Guenther Walther、およびTrevor Hastie(2001)。ギャップ統計によるデータセット内のクラスター数の推定。


1
kk

ギャップ統計の最大化とモデルの節約との間のトレードオフを指摘していただきありがとうございます
クラウドコンピューティング
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.