時間の影響が個人間で機能的な形で異なる縦断的データのモデリング


32

コンテキスト

200人の参加者を対象に、20週間にわたって週に1回従属変数(DV)を測定する縦断的研究があると想像してください。私は一般的に興味がありますが、私が考えている典型的なDVには、雇用後の仕事のパフォーマンスや、臨床心理学的介入後のさまざまな幸福度測定が含まれます。

マルチレベルモデリングを使用して、時間とDVの関係をモデル化できることを知っています。また、係数(切片、勾配など)を個人間で変化させ、参加者の特定の値を推定することもできます。しかし、データを視覚的に検査したときに、時間とDVの関係が次のいずれかであることがわかったらどうなるでしょうか。

  • 機能的な形式が異なります(おそらくいくつかは線形であり、他は指数関数的であるか、いくつかは不連続性を持っています)
  • 誤差の分散が異なる(個人によっては、ある時点から次の時点までにより変動しやすい)

質問

  • このようなモデリングデータにアプローチする良い方法は何でしょうか?
  • 具体的には、どのようなアプローチがさまざまなタイプの関係を識別し、そのタイプに関して個人を分類するのに適していますか?
  • そのような分析のためのRにはどのような実装が存在しますか?
  • これを行う方法に関する参考文献はありますか?教科書または実際のアプリケーションですか?

回答:


20

次の3つの方向を検討することをお勧めします。

  • 縦方向のクラスタリング:これは監視されていませんが、パーティショニングの品質を評価するためにCalinsky基準に依存するk-meansアプローチを使用します(パッケージkmlおよびオンラインヘルプに含まれる参照)。基本的に、個々の時間経過の特定の形状を特定するのに役立ちませんが、同種の進化プロファイルを分離するだけです
  • 分散性を説明するある種の潜在成長曲線:私の最善の推測は、MPlusソフトウェアに関する広範な参照、特にFAQとメールを参照することです。また、ランダム効果乗法的異分散モデルについて聞いたことがあります(これらのキーワードをグーグルで試します)。私はこれらの論文(見つける12)面白いのが、私は詳細にそれらを見ていませんでした。オフィスに戻ったら、神経心理学的評価に関する参考文献を更新します。
  • 機能的PCAfpcaパッケージ)が機能的データ分析を見る価値があるかもしれません

その他の参照(オンザフライで参照):


1
ありがとう。クラスタリング手順を使用するというアイデアは私に思いつきました。課題は、理論的に意味のある方法で、可能な個々のレベルの曲線の特徴を適切にキャプチャし、重み付けすることだと思います。kmlでどのように機能するかを見ていきます。
ジェロミーアングリム

1
インターフェースはひどいですが、それはかなりうまく機能します(そして、私はそれを構築した人を知っています:)-私は2か月前に、発達測定の個々のプロファイルに基づいて臨床グループを分離するためにそれを使用しました(Brunet-Lézine)。
chl

1
FDAのもう1つの主な参考資料を次に示し
マイクローレンス

1
Ramsay(2008)によるFDAリンクへのこの紹介、特にアクセスしやすいgbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Jeromy Anglim


6

私には、Growth Mixture Modelsがエラー分散を調べる可能性があるように思えます。(こちらのPDF)。(乗法的異分散モデルが何であるかはわかりませんが、間違いなくチェックアウトする必要があります)。

潜在グループベースの軌跡モデルは、犯罪学で最近非常に人気が高まっています。しかし、多くの人々は、グループが実際に存在することを単に当然のことと考えており、いくつかの鋭い研究は、ランダムなデータでもグループが見つかることを指摘しています。また、Naginのグループベースのモデリングアプローチでは、エラーを評価することはできません(そして、正直なところ、不連続のように見えるモデルを見たことはありません)。

20時点では困難ですが、探索目的では、パターンを識別するための単純なヒューリスティックを作成すると役立ちます(たとえば、常に低いまたは常に高い変動係数)。スプレッドシートまたは平行座標プロットでスパークラインを想定していますが、それらが役立つとは思いません(正直なところ、非常に啓発的な平行座標プロットを見たことはありません)。

がんばろう


@chl、問題ありません、ここにリストしたすべてのリソースに感謝します。
アンディW

潜在グループについての良い点。潜在クラス分析とクラスター分析のいくつかのアプリケーションを見てきましたが、そこでは低変数や高変数などの連続変数intカテゴリを切り分けているように見えます(jeromyanglim.blogspot.com/2009/09/…)。ただし、カテゴリごとに異なるデータ生成プロセス(常に高、常に低、段階的な増加、低から急な増加など)やカテゴリ内にあるように見える視覚的に見える個人レベルの縦断データがいくつかあります。パラメータの連続的な変化があります。
ジェロミーアングリム

@Jeromy、私が引用した研究は、潜在的なグループを識別するためにそのような方法を使用することを人々に思いとどまらせるとは思わない。作業のポイントは、そのような方法を使用してグループの存在だけを推測することはできないということです。なぜなら、ランダムなデータであっても常にグループを見つけるからです。見つけたグループが本物であるか、単にメソッドの成果物であるかは、より主観的な解釈にかかっています。そのようなプロセスを生成するいくつかの論理理論を特定し、特定されたグループがそれらの理論に適合するかどうかを確認できます。
アンディW

5

この質問をしてから4年後、私はいくつかのことを学んだので、おそらくいくつかのアイデアを追加する必要があります。

ベイジアン階層モデリングは、この問題に対する柔軟なアプローチを提供すると思います。

ソフトウェア:jags、stan、WinBugsなどのツールと、それぞれのRインターフェイスパッケージ(rjags、rstanなど)を組み合わせて、このようなモデルを簡単に指定できます。

人内誤差の変化: ベイジアンモデルを使用すると、人内誤差の分散を、人によって異なるランダムな要因として簡単に指定できます。

yi=1,...,nj=1,...J

yijN(μi,σi2)
μi=γ
γN(μγ,σγ2)
σiGamma(α,β

したがって、各個人の標準偏差はガンマ分布としてモデル化される場合があります。私はこれが多くの心理学的領域で重要なパラメータであることがわかった。そこでは人々は時間とともにどれほど変化するかが異なる。

潜在的な曲線のクラス: このアイデアはまだ検討していませんが、各個人に対して2つ以上のデータ生成関数を指定し、ベイジアンモデルが特定の個人に対して最も可能性の高いモデルを選択できるようにすることは比較的簡単です。したがって、通常、どの機能フォームが個人データを記述するかに関して、各個人の事後確率を取得します。

モデルのアイデアのスケッチとして、次のようなものがあります。

yijN(μij,σ2)
μij=γiλij(1)+(1γi)λij(2)
λij(1)=θ1i(1)+θ2i(1)exp(θ3i(1))
λij(2)=θ1i(2)+θ2i(2)xij+θ3i(2)xij2
γi=Bernoulli(πi)

xijλij(1)λij(2)πiλij(1)


また、ベイジアンフレームワークに移行し、Gaussian Processesを使用して不確実な関数形式の時系列分析を行っています。それは(ここでは私の未解決のクエリを参照してください。階層データの場合にも適用することができるかまだ不明groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJを
マイク・ローレンス・

3

John Foxには、nlmeを使用して縦断データを調べるためのオンラインで利用可能なすばらしい付録があります。あなたに役立つかもしれません:

http://cran.r-project.org/doc/contrib/Fox-Companion/appendix-mixed-models.pdf

そこには素晴らしいものがたくさんあります(そしてFoxの本は一般的にかなり良いです!)。


2
リンク切れ。ただし、著者のWebページから入手できます
Glen_b -Reinstate Monica
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.