縦断的変数をクラスター化する方法は?


10

私は、0日目から7日目までの縦断データを含む変数の束を持っています。これらの縦断変数(ケースではない)を異なるグループにクラスター化できる適切なクラスター化アプローチを探しています。このデータセットを時間ごとに個別に分析しようとしましたが、結果を合理的に説明するのはかなり困難でした。

Webサイトに例PROC SIMILARITYがあるため、SAS手順の可用性を調査しました。しかし、私はそれが正しい方法ではないと思います。以前のいくつかの研究では、各時点で探索的因子分析を使用していましたが、不合理な結果のため、これも私の研究ではオプションではありません。

うまくいけば、ここでいくつかのアイデアを提供でき、SASやRなどのコンパイル済みプログラムを処理できるようになります。どんな提案でも大歓迎です!!


以下に短い例を示します(データと変数名の位置が一致していないため申し訳ありません)。

id time   V1  V2   V3   V4   V5   V6   V7   V8   V9   V10
2    0    8    7    3    7    6    6    0    0    5    2
2    1    3    5    2    6    5    5    1    1    4    2
2    2    2    3    2    4    4    2    0    0    2    2
2    3    6    4    2    5    3    2    1    2    3    3
2    4    5    3    4    4    3    3    4    3    3    3   
2    5    6    4    5    5    6    3    3    2    2    2
2    6    7    5    2    4    4    3    3    4    4    5
2    7    7    7    2    6    4    4    0    0    4    3
4    0   10    7    0    2    2    6    7    7    0    9
4    1    8    7    0    0    0    9    3    3    7    8
4    2    8    7    0    0    0    9    3    3    7    8
4    3    8    7    0    0    0    9    3    3    7    8
4    4    5    7    0    0    0    9    3    3    7    8
4    5    5    7    0    0    0    9    3    3    7    8
4    6    5    7    0    0    0    9    3    3    7    8
4    7    5    7    0    0    0    9    3    3    7    8
5    0    9    6    1    3    2    2    2    3    3    5
5    1    7    3    1    3    1    3    2    2    1    3
5    2    6    4    0    4    2    4    2    1    2    4
5    3    6    3    2    3    2    3    3    1    3    4
5    4    8    6    0    5    3    3    2    2    3    4
5    5    9    6    0    4    3    3    2    3    2    5
5    6    8    6    0    4    3    3    2    3    2    5
5    7    8    6    0    4    3    3    2    3    2    5

データについてもう少し説明してもらえますか、それとも短縮されたサンプルを提供できますか?「変数に長期データが含まれている」とは、それらがすべて同じ人物または物について7日間にわたって繰り返された測定であることを意味します(したがって、相関している可能性があります)。
ロッサー

ロザに:私はデータの一部を追加しました。あなたが述べたように、それらは繰り返される測定です:各患者(ID)には数日間(day0〜day7)続く10の測定(V1〜V10)があります。
cchien

回答:


5

R HmiscパッケージでcurveRep、「代表的な曲線」を表す関数のヘルプファイルを参照してください。 curveRep曲線の形状、場所、および欠落した時点のパターンのクラスター。


アドバイスをしてくれてありがとう。それは実行可能に聞こえます。すぐにマニュアルを読みます。
cchien

フランク。マニュアルの例は機能していないようです。タイプミスはありますか?例を実行して感じてみたかったのです。これがコードです:set.seed(1)N <-200 nc <-sample(1:10、N、TRUE)id <-rep(1:N、nc)x <-y <-id for(i in 1:N){x [id == i] <-if(iy [id == i] <-i + 10 *(x [id == i]-.5)+ runif(nc [i]、- 10、10)}
B_Miner

1
おっと。Rヘルプファイルのパーセント記号をエスケープする必要があることを忘れていました。これにより、例の行が切り捨てられました。不完全な行を置き換えます x[id==i] <- if(i %% 2) runif(nc[i]) else runif(nc[i], c(.25, .75))
フランク・ハレル

「p:クラスタリングの各曲線を評価するポイントの数」がcurveRep(x、y、id、kxdist = 2、p = 10)で
何を意味するのかわかりません

1
p>3p=10p

5

それがあなたが探しているものかどうかはわかりませんがkml、R のパッケージはk-meansを使用して繰り返し測定のシーケンスをクラスター化します。ここにパッケージページ論文へのリンクがあります(残念ながら、それはゲートされています)。データセットがかなり小さい場合(数百のシーケンス)にのみ機能します。

これは、ペーパーのゲーティングされていないバージョンです(参照問題なし):http : //christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf


この質問を投稿する前に、実際にこの方法を確認しました。kmlアプローチは、元の論文のいくつかの例から個人をグループ化するクラスター方法であると私は思いました。もう一度見てみます。ありがとう!!
cchien

@ccchienはい、それらはそれを使用して個々の軌道をクラスター化しますが、個人ごとに10の軌道(変数ごとに1つ)があると想定できます。kmlプロシージャが適切に機能するには、変数を正規化する必要があるでしょう。問題は、私の知る限り、あなたの軌道が個々にネストされていることをkmlに伝える方法がないということです。ですから、あなたが達成しようとしていることに正確に適合しないかもしれません。
Antoine Vernet

@ greg121、自由に利用できるバージョンの論文へのリンクをありがとう。テキスト内の参照が削除されたようです。おそらくLatexファイルをもう一度再コンパイルする必要があります(参照リストはそこにあります)。
Antoine Vernet、2012年

@AntoineVernetはい、そうです。しかし、他のバージョンは見つかりませんでした
greg121 2012年

4

したがって、同じn個の個体について、t回ごとにp個の変数を測定します。続行する1つの方法は、t pXp(非)相似性行列を計算し、INDSCALモデルの多次元スケーリングを適用することです。2つの低次元マップ(たとえば、2次元の)が表示されます。最初のマップは、次元の空間におけるp変数の座標を示し、それらの間のグループ化があればそれを反映します。2番目のマップは、tの各行列の次元の重み(つまり、重要度または顕著性)を示します

ここに画像の説明を入力してください


また、n次元を2次元に変換するという考えもありますが、これを実現できる特定の方法については考えていません。SASには、それを実装できる手順があるかもしれません。データを使用するときに、その可用性を確認するために学習します。
cchien

重みを解釈する最良の方法は何ですか?
Ming K

重みは、ディメンションがこの特定のソースにどの程度関連しているか、または区別できるかを示します(ソースは個人、またはこの例のように時間です)。たとえば、time1の画像では、次元IIは強いか関連性があり、次元Iは弱いです。
ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.