縦断的データ:時系列、繰り返し測定、その他


10

平易な英語で: 私は重回帰またはANOVAモデルを持っていますが、各個人の応答変数は時間の曲線関数です。

  • 右側の変数のどれが曲線の形状または垂直オフセットの大きな違いの原因であるかをどのようにして知ることができますか?
  • これは時系列の問題、反復測定の問題、それともまったく別の問題ですか?
  • そのようなデータを分析するためのベストプラクティスは何ですか(できればでR、他のソフトウェアを使用することもできます)?

より正確に言えば: レッツは、私がモデル持っていると言うが、Y I jは、kは、実際にデータ-のシリーズです数値変数として記録された、多くの時点tで同じ個体kから収集された点。データをプロットすると、個々のy i j k tyijk=β0+β1xi+β2xj+β3xixj+ϵkyijkktyijkt垂直オフセット、形状、または周波数(循環の場合)が共変量に大きく依存する可能性がある時間の2次関数または循環関数です。共変量は時間の経過とともに変化しません。つまり、データ収集期間中、個体の体重または治療グループは一定です。

これまでのところ、私は次のRアプローチを試しました:

  1. マノバ

    Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); 
    

    ...ここYTで、列は時間ポイントである行列です。この例では10個ですが、実際のデータでははるかに多くなります。

    問題:これは時間を要因として扱いますが、時間点は各個人に対して正確に一致しません。さらに、サンプルサイズに対してそれらの多くが存在するため、モデルは飽和します。時間の経過に伴う応答変数の形状は無視されているようです。

  2. 混合モデル(PinheiroとBatesと同様、SとS-Plusの混合効果モデル

    lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, 
        random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML')
    

    ... IDデータを個人別にグループ化する要素です。この例では、応答は時間とともに循環しますが、代わりに2次項や時間の他の関数が存在する可能性があります。

    問題:各時間項が必要かどうか(特に2次項の場合)、どの共変量の影響を受けるかはわかりません。

    • stepAIC()、それらを選択するための良い方法は?
    • 時間に依存する項を削除する場合、それをrandom議論からも削除しますか?
    • 引数にcorEXP()数式を使用する自己相関関数(など)も使用している場合correlation、その数式をcorEXP()の数式と同じにするか、randomそれともそのままにする必要があり~1|IDますか?
    • このnlmeパッケージは、PinheiroとBates以外の時系列のコンテキストではめったに言及されません...この問題に適しているとは考えられていませんか?
  3. 二次モデルまたは三角法モデルを各個人に適合させ、各係数を重回帰またはANOVAの応答変数として使用します。

    問題:多重比較の修正が必要です。何か見落としているのではないかと疑う他の問題は考えられません。

  4. このサイトで以前に提案されているように(複数の予測子を持つ時系列回帰の用語は何ですか?)、ARIMAXと伝達関数/動的回帰モデルがあります。

    問題: ARMAベースのモデルは離散時間を想定していますね。動的回帰については、今日初めて耳にしましたが、結局うまくいかないかもしれない別の新しい方法を掘り下げる前に、以前にこれを行った人にアドバイスを求めるのが賢明だと思いました。


5
@ f1r3br4andデータとは何かについての詳細を追加すると役立つ場合があります。つまり、いくつの時点でいくつのケースが測定されたか?ケースは異なる条件にありますか?または何か違う?
Jeromy Anglim 2011年

アカウントを紛失しましたか?その場合は、Gmailアドレスを使用して、新しいものを登録してください。マージするものを簡単に見つけることができます。

1
@ f-tusselおよび@ jeromy-anglim:データは、自然の寿命の過程で実験動物から収集されたさまざまな非侵襲的測定値であり、遺伝子型、性別、または給餌された食事の種類などの静的な情報と組み合わされることがよくあります。「多くの」ポイントとは、20から数百の意味です。これは、私が分析しようとしている1つのデータセットではなく、私のグループで非常に一般的になりつつあるタイプのデータを分析する方法を学ぶためのものです。グループ内因子を含む混合モデルは、サンプルサイズが小さい場合にのみ推奨されますか?
f1r3br4nd

回答:


5

Jeromy Anglimが言ったように、各個人のあなたが持っている時点の数を知ることは助けになるでしょう。あなたが「多くの」と言ったように、私は機能分析が実行可能な代替であるかもしれないと思います。Rパッケージのfdaをチェックして、ラムゼイとシルバーマンの本 を見るとよいでしょう。


長期的には機能分析は有望に聞こえますが、意味のない結果や偏った結果が得られないと確信する前に、学習曲線がかなりあるように見えます。それで、私がこれに慣れている間、より慣れ親しんだnlmeベースのアプローチ(OPの項目2および3)は、とりあえずデータで使用するのに少なくとも有効ですか?
f1r3br4nd

2

私はもともとこの質問を提起して以来、ランダムブロック係数として主題を含む混合効果モデルがこの問題の実用的な解決策であるという結論に達しました。つまり、私の元の投稿のオプション#2です。randomへの引数が(同じテスト被験者からの観測を識別する場所lme)に設定されている場合、ランダム切片モデルが適合されます。に設定されている場合、ランダムな勾配と切片のモデルが適合されます。同じ個体内で変化する変数を含む右側の式は、との間に配置できますが、式が複雑すぎると、モデルが飽和したり、さまざまな数値エラーが発生したりします。したがって、尤度比検定(~1|IDID~TIME|ID~|IDanova(myModel, update(myModel,random=~TIME|ID)))ランダムインターセプトモデルをランダムスロープおよびインターセプトモデルまたは他の候補ランダム効果モデルと比較します。フィットの違いが重要でない場合は、より単純なモデルを使用します。元の投稿でランダムなトリガー関数に入るのはやりすぎでした。

私が提起したもう1つの問題は、モデルの選択の問題でした。人々はどんな種類のモデル選択も好きではないようですが、誰も実用的な代替手段を持っていません。説明変数が何であり、関連性がないかについてデータを収集した研究者を盲目的に信じている場合、多くの場合、彼らのテストされていない仮定を盲目的に受け入れていることになります。考えられるすべての情報を考慮に入れると、多くの場合、飽和したモデルになります。特定のモデルと変数が簡単であるために任意に選択した場合、テストされていない仮定を受け入れます。今回は自分の仮定です。

だから、要約では、反復測定のためにそれのlmeモデルが経由してトリミングが続くMASS:::stepAICか、MuMIn:::dredgeおよび/またはnlme:::anova.lmeまでと誰かが良いアイデアを持っていない限り。

誰かが反論を持っているかどうかを確認するために、それを受け入れる前に、この自己回答をしばらく残しておきます。あなたの時間をありがとう、そしてあなたが私と同じ種類の質問を持っているのであなたがこれを読んでいるなら、幸運と半未知の領域へようこそ。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.