私はシーケンス分析に不慣れです。最適マッチングに基づく非類似度マトリックスのクラスター分析からの平均シルエット幅(ASW)が低い場合(約25)にどう反応するか疑問に思っていました。シーケンスをクラスター化できるようにする基本的な構造はほとんどないと結論付けるのが適切だと思いますか?クラスター品質の他の測定に基づく低いASWを無視できますか(私は以下にいくつか貼り付けました)。または、シーケンス分析または後続のクラスター分析中に行われた選択が、低いASW値の原因である可能性がありますか?
任意の提案をいただければ幸いです。ありがとう。
より多くのコンテキストが必要な場合:
私は、20代の624シーケンスの労働時間の不一致(つまり、1週間に労働することを好む時間数と実際に労働する時間数の不一致)を調べています。私が調べているすべてのシーケンスの長さは10です。シーケンスオブジェクトには5つの状態があります(M =より多くの時間を必要とし、S =同じ時間を必要とし、F =より少ない時間を必要とし、O =労働力の外、およびU =失業者)。
私は、ASWの結果がアプローチの異なる組み合わせによってどのように変化するかを体系的に説明していません。それでも、低および中程度のインデルコスト(最大置換コストの.1および.6-タイミングよりもイベントの順序を重視)およびさまざまなクラスタリング手順(ワード、平均、およびpam)を試しました。私の全体的な印象は、ASWの数値は低いままであるということです。
おそらく、ASWの結果が低いことは理にかなっています。私はこれらの州がさまざまな異なる順序で来ることを期待し、州は繰り返すことができます。重複する観測値を削除すると、Nが624から536に低下するだけです。データを調査すると、実際には非常に異なると考えるかなりの多様性とシーケンスがあることがわかります。ミスマッチがあり、ミスマッチがあるかないかの間で前後に振動しました。おそらく、明確に区別されたクラスターの欠如は、興味深いバリエーションの欠如と同じではありません。それでも、クラスターの結果が弱いため、シーケンスを要約する適切な方法がないままになっているようです。
indelを置換コスト2の.1に設定したWardの方法の結果これらの統計は、6クラスターソリューションが良いことを示唆しているようです。ただし、ASWは低くなります。少なくとも、適切な数のクラスターがあるソリューションの場合(2または3は少なすぎる)です。
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08