GAP統計を使用してRのk個のクラスターを推定しました。しかし、それをうまく解釈できるかどうかはわかりません。
上記のプロットから、私は3つのクラスターを使用する必要があると想定しています。
2番目のプロットから、6つのクラスターを選択する必要があります。GAP統計の正しい解釈ですか?
私はどんな説明にも感謝します。
clusGap
globalmaxに基づいて使用しましたが、maxSEの実装方法がわかりませんでした。
GAP統計を使用してRのk個のクラスターを推定しました。しかし、それをうまく解釈できるかどうかはわかりません。
上記のプロットから、私は3つのクラスターを使用する必要があると想定しています。
2番目のプロットから、6つのクラスターを選択する必要があります。GAP統計の正しい解釈ですか?
私はどんな説明にも感謝します。
clusGap
globalmaxに基づいて使用しましたが、maxSEの実装方法がわかりませんでした。
回答:
理想的なクラスタリングを取得するには、ギャップ統計を最大化するようにを選択する必要があります。これがTibshirani et al。によって与えられた例です。(2001)彼らの論文では、2つのクラスターを持つ人工データによって形成されたプロット。ご覧のとおり、ギャップ統計は最大化されるため、2は明らかに理想的なです。k k = 2
ただし、多くの実際のデータセットでは、クラスターは十分に定義されておらず、ギャップ統計の最大化とモデルの節約とのバランスをとることができるようにしたいと考えています。適例:OPの最初の画像。ギャップ統計のみを最大化する場合、30(またはそれ以上!)のクラスターを持つモデルを選択する必要があります。もちろん、そのプロットが増加し続けると仮定すると、結果はあまり役に立ちません。したがって、Tibshiraniは1標準誤差法を提案します。
となるように、クラスターサイズが最小のように選択します。 Kギャップ(K)≥ギャップ(K+1)-SK+1
これは、非公式に、ギャップ統計の増加率が「鈍化」し始めるポイントを識別しています。
したがって、OPの最初の画像で、赤いエラーバーを標準エラーとすると、3はこの基準を満たす最小のです。
ただし、OPの2番目の画像の場合、ギャップ統計は場合にすぐに減少します。したがって、1 標準誤差の基準を満たす最初のはです。これは、データがクラスター化されるべきではないというプロットの言い方です。k 1
結局のところ、最適なを選択する方法は他にもあります。たとえば、R関数の既定の方法では、常にグラフの極大値が検索され、極大値の1つの標準誤差内で最小のが選択されます。この方法を使用して、OPのグラフ1および2に対してそれぞれおよびを選択します。しかし、先ほど述べたように、これには複雑さの問題があるようです。k k = 30 k = 19clusGap
firstSEmax
出典:Robert Tibshirani、Guenther Walther、およびTrevor Hastie(2001)。ギャップ統計によるデータセット内のクラスター数の推定。