シルエットの幅が狭いということは、データの基本的な構造がほとんどないということですか?


10

私はシーケンス分析に不慣れです。最適マッチングに基づく非類似度マトリックスのクラスター分析からの平均シルエット幅(ASW)が低い場合(約25)にどう反応するか疑問に思っていました。シーケンスをクラスター化できるようにする基本的な構造はほとんどないと結論付けるのが適切だと思いますか?クラスター品質の他の測定に基づく低いASWを無視できますか(私は以下にいくつか貼り付けました)。または、シーケンス分析または後続のクラスター分析中に行われた選択が、低いASW値の原因である可能性がありますか?

任意の提案をいただければ幸いです。ありがとう。

より多くのコンテキストが必要な場合:

私は、20代の624シーケンスの労働時間の不一致(つまり、1週間に労働することを好む時間数と実際に労働する時間数の不一致)を調べています。私が調べているすべてのシーケンスの長さは10です。シーケンスオブジェクトには5つの状態があります(M =より多くの時間を必要とし、S =同じ時間を必要とし、F =より少ない時間を必要とし、O =労働力の外、およびU =失業者)。

私は、ASWの結果がアプローチの異なる組み合わせによってどのように変化するかを体系的に説明していません。それでも、低および中程度のインデルコスト(最大置換コストの.1および.6-タイミングよりもイベントの順序を重視)およびさまざまなクラスタリング手順(ワード、平均、およびpam)を試しました。私の全体的な印象は、ASWの数値は低いままであるということです。

おそらく、ASWの結果が低いことは理にかなっています。私はこれらの州がさまざまな異なる順序で来ることを期待し、州は繰り返すことができます。重複する観測値を削除すると、Nが624から536に低下するだけです。データを調査すると、実際には非常に異なると考えるかなりの多様性とシーケンスがあることがわかります。ミスマッチがあり、ミスマッチがあるかないかの間で前後に振動しました。おそらく、明確に区別されたクラスターの欠如は、興味深いバリエーションの欠如と同じではありません。それでも、クラスターの結果が弱いため、シーケンスを要約する適切な方法がないままになっているようです。

indelを置換コスト2の.1に設定したWardの方法の結果これらの統計は、6クラスターソリューションが良いことを示唆しているようです。ただし、ASWは低くなります。少なくとも、適切な数のクラスターがあるソリューションの場合(2または3は少なすぎる)です。

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

回答:


11

ASWは、クラスタリングソリューションの一貫性の尺度です。高いASW値は、クラスターが均質であり(すべての観測値がクラスターの中心に近い)、それらが十分に分離されていることを意味します。Kaufmann and Rousseuw(1990)によると、0.25未満の値はデータが構造化されていないことを意味します。0.25と0.5の間で、データは構造化されている可能性がありますが、人為的なものである可能性もあります。これらの値は指標であり、決定のしきい値として使用しないでください。これらの値は理論的に定義されていません(一部のp値に基づいていない)が、作成者の経験に基づいています。したがって、これらの低いASW値によると、データはまったく構造化されていないようです。クラスター分析の目的が説明のみである場合は、最も顕著なパターンの一部(ただし一部のみ)が明らかになっていると主張できます。しかしながら、

また、「クラスターごと」のASW値を確認することもできます(これは関数によって与えられますwcClusterQuality)。クラスターのいくつかは明確に定義されている場合もあれば、「偽」(ASW <0)の場合もあり、その結果、全体的なASW値が低くなります。

あなたはより良いヒントを与えるはずのブートストラップ戦略を使うことを試みることができます。Rでは、clusterbootパッケージの関数fpcをこの目的で使用できます(ヘルプページを参照)。ただし、加重データでは機能しません。あなたのデータが重み付けされていない場合、私はそれを試してみる価値があると思います。

最後に、データと分類を詳細に確認したい場合があります。多分、あなたのカテゴリーは不安定すぎるか、明確に定義されていません。ただし、ここではそうではないようです。

あなたが言ったように、「明確に区別されたクラスターの欠如は、興味深いバリエーションの欠如と同じことではありません」。不一致分析など、シーケンスの変動性を分析する他の方法があります。これらの方法を使用すると、シーケンスと説明要因の間のリンクを調査できます。たとえば、シーケンス回帰ツリー(パッケージTraMineRの関数 "seqtree")を構築してみてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.