各被験者ごとに複数のデータポイントを正しく処理する方法


10

私は現在、各被験者の複数の測定値を含むデータを正しく処理する方法についてsomeoeと議論しています。この場合、各被験者のさまざまな状態について、短時間で各被験者のデータが収集されました。すべての測定値は、正確に同じ変数を収集します。

現在の1つのオプションは、データを条件ごとにグループ化することであり、複数のデータポイントが1つの対象からのものであることを気にしないことです。ただし、各被験者のデータポイントはおそらく完全に独立しているわけではありません。

他の選択肢は、最初に各被験者から各状態のすべての測定値の平均を取り、次に平均を比較することです。ただし、最終分析では平均の誤差が少ないことが考慮されないため、これはおそらく重要性に影響を与えます。

どのようにしてそのようなデータを正しく分析できますか?これはSPSSで何らかの形で処理されますか?原則として、平均を計算するときに、最終的な分析でこれを考慮するよりも、エラーマージンを計算することは可能ですが、SPSSが何らかの形でこの計算を背後で行っているとは思いません。


1
これは、各被験者がすべて、または多くの条件で実行されるような反復測定設計ですか?または、それは、各被験者が1つの状態にある独立したグループ、または測定、デザインですか?
John

この設計では、各被験者はすべての条件で実行されます。ただし、被験者が手元のタスクで失敗したため、拒否する必要があるいくつかのデータポイントがあります。サブジェクトが単一の条件のすべてのサブタスクで失敗することはほとんどありません(条件ごとに約40回の繰り返しがあります)。そのため、各サブジェクトはすべての条件のデータポイントを持つ可能性があります。
LiKao 2012

回答:


9

「データを条件ごとにグループ化し、1つのサブジェクトから複数のデータポイントが取得されることを気にしない」ことは、独立性違反になります。だからそれはノーゴーです。1つのアプローチは、「各被験者から各条件のすべての測定値の平均をとり、その平均を比較する」ことです。そうすれば、独立性に違反することはありませんが、サブジェクトレベルの手段への集計で一部の情報が失われます。

一見すると、これは被験者間の条件と被験者内で測定された複数の期間の混合デザインのように聞こえます。しかし、それは問題を提起します、なぜあなたは複数の時点でデータを収集したのですか?時間の影響、または時間の経過に伴う変数の進行は、条件間で異なると予想されますか?これらの質問のいずれかに対する答えが「はい」である場合、データの構造を考えると、あなたが興味を持っているのは混合ANOVAであると思います。混合ANOVAは、対象の分散をSSTotalの「背後」から分割します。しかし、そのパーティショニングが被験者間の被験者の条件テストに役立つかどうかは、他のいくつかの要因に依存します。

とにかく、SPSS / PASW 18で、分析->一般線形モデル->反復測定。主題ごとに1行、各時点ごとに1列、および条件IDとして1列があります。条件識別子は「between」セクションに入り、繰り返し測定係数を定義すると、繰り返し測定が処理されます。


わかりました、これは私が考えたことです。条件ごとに複数のデータポイントが収集される理由は2つあります。1つは、この方法ではデータの信頼性が高くなることです。もう1つの理由は、一部のデータポイントを破棄する必要があることです(被験者は常に指示に正しく従わなかった)。条件は完全にサブジェクト内にあるので、この場合、混合設計はまったくありません。残念ながら、各被験者の状態ごとに約40回の繰り返しがあるため、繰り返し測定は問題外です。ただし、反復回数が多いということは、平均を使用すると多くの情報が失われることを意味します。
LiKao

それから私はジョンの答えをお勧めします。混合モデルが望ましいと思われます。これにより、各被験者内の平均と変動の両方をモデル化し、ネストを尊重できます。このような分析の1つの問題は、「正しい」自由度が不明確であるため、統計的有意性のしきい値も不明確であるということです。Johnが提供するコードとは対照的に、条件の効果にランダムな勾配を当てはめることをお勧めします(異なる被験者は異なる効果を表示します)。これを怠ると、タイプIのエラー率が上がる可能性があることを示唆するシミュレーションをいくつか見ました。
russellpierce 2012年

4

drknexusが言及しているように、反復測定設計はこれを処理する従来の方法です。この種の分析を行う場合、1つのスコア/条件/対象に集計する必要があります。これは、球形度の仮定の違反やその他の問題に敏感です。ただし、より近代的な手法は、マルチレベルモデリングまたは線形混合効果を使用することです。この手法を使用すると、データを集約しませ。これにはいくつかの扱いがありますが、現在のところ、最良の基本的なチュートリアルはわかりません。Baayen(2008)第7章は良いです。Pinheiro&Bates(2000)は非常に優れていますが、物事の音からイントロのアドバイスに従って、初心者におすすめのビットを読んでください。

すべてのデータが長い形式(1行/データポイント)であり、件名、応答(y)、および条件変数(x)を示す列があると仮定して、ANOVAスタイルの結果のみを取得したい場合は、 Rでこのようなものを調べます(lme4パッケージがインストールされていることを確認してください)。

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

もちろん、おそらく相互作用する、さらに多くの条件変数列を持つことができます。次に、lmerコマンドを次のように変更します...

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(ちなみに、パワーを上げるために繰り返し測定で集計しないことは正式な誤りです。誰か名前を覚えていますか?)


被験者の数ではなく、応答の数からdfを集計して使用しないことの誤りは、独立性の侵害だと思います。あるいは、(私が思うに)固定された一連の被験者について、個々の項目の応答のレベルで推論を行うことを考えているかもしれません。
russellpierce 2012年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.