カテゴリーデータを使用して、参加者ごとに複数の測定を処理するにはどうすればよいですか?


8

多くの参加者から測定値を収集する実験を行いました。関連する各データポイントには2つの変数があり、どちらもカテゴリ型です。実際、各変数には2つの可能な値があります(2つのはい/いいえの質問に対する答え)。統計的仮説検定で、これら2つの変数間に相関があるように見えるかどうかを確認してください。

参加者ごとに1つのデータポイントがある場合、結果として得られる分割表に対してフィッシャーの正確検定を使用できます。ただし、参加者ごとに複数のデータポイントがあります。したがって、単一の参加者からのデータポイントは独立していないため、フィッシャーの正確確率検定は適用可能ではないようです。たとえば、アリスから10個のデータポイントがある場合、それらはすべて同じ人物からのものであるため、おそらく独立していません。フィッシャーの正確確率検定では、すべてのデータポイントが独立してサンプリングされたと想定されているため、フィッシャーの正確確率検定の仮定は満たされておらず、この設定での使用は不適切です(統計的有意性の不当な報告が出る可能性があります)。2×2

この状況を処理するテクニックはありますか?


私が検討したアプローチ:

もっともらしい代替策の1つは、各参加者からのすべてのデータを1つの数値に集約してから、他の独立性テストを使用することです。たとえば、各参加者について、最初の質問に対するはいの回答の割合と2番目の質問に対するはいの回答の割合を数え、参加者ごとに2つの実数を与え、ピアソンの積率検定を使用して相関をテストできますこれら2つの数値の間。しかし、これが良いアプローチかどうかはわかりません。(たとえば、平均化/カウントがデータをスローし、集計のためにこれが能力を失う可能性があること、または集計後に依存の兆候が消えることがあることを心配しています。)

基礎となる変数が連続的である場合(実数など)と線形モデルが適切な場合に、この状況を処理することを目的としていると思われるマルチレベルモデルについて読みました。ただし、ここでは2つのカテゴリ変数(はい/いいえの質問に対する回答)があるため、ここでは適用されないようです。カテゴリカルデータに適用できる同等の手法はありますか?

ウィキペディアで繰り返し測定のデザインについて少し読んだこともありますが、ウィキペディアの記事は縦断的研究に焦点を当てています。これはここでは当てはまらないように見えます。私がそれを正しく理解していれば、繰り返しの測定は時間の経過による影響に焦点を合わせているようです(時間の経過が変数に影響する場合)。しかし、私の場合、時間の経過が関連する影響を与えることはありません。私が誤解した場合は教えてください。

さらに振り返ってみると、私に起こる別のアプローチは、置換テストを使用することです。各参加者について、質問1への回答をランダムに並べ替え、質問2への回答を(独立して)ランダムに並べ替え、参加者ごとに異なる順列を使用できます。ただし、どの結果が観察された結果と「少なくとも極端」であるかを測定するために、ここではどのテスト統計が適切であるかは明確ではありません。

関連:各被験者ごとに複数のデータポイントを正しく処理する方法(ただし、カテゴリカルデータではなく、連続変数の線形モデルに焦点を当てています)、同じ患者で測定は独立していますか?(同じ)


マクネマーのテストはどうですか?これがまさにそのためです。
StatsStudent 2016年

@StatsStudent、詳しく説明してもらえますか?それがこの状況にどのように当てはまるのかわかりません。「データポイント」とは、はい/いいえの両方の質問に対する答え(たとえば、はい、はい)を含むタプルを意味します。McNemarのテストについて読んだとき、それは参加者ごとの単一のデータポイントについての話です。参加者ごとの複数のデータポイントの場合ではありません(たとえば、各参加者は複数回公開され、各公開後に、yes / noの両方の質問に対する答えが得られます)。
DW

私があなたのシナリオを正しく理解していれば、マクネマーのテストはまだ当てはまります。2x2のテーブルを設定しますが、テーブルの各セルの被験者数ではなく、ペアがあります。たとえば、個人を各セルに分類するのではなく、最初の質問に「はい」、2番目の質問に「はい」と回答した個人のペアの数を特定し、結果をCell入れます。最初の質問と第二に、「いいえ」に「はい」と答えた対の数は、セルに入力されるだろうなど、bab
StatsStudent

@StatsStudent、個人のペア?誤解を招いたに違いないと思います。私は聞いて、単一の、個々の2つの質問と回答(言って、はい、はい)のペアを取得します。それがすべてあった場合、マクネマーのテストを使用できます。しかし、ここでのひねりは、一部の個人については、私が複数回行ったということです。たとえば、アリスの場合、私は彼女にいくつかの異なる時間に2つの質問をし、そのたびに2つの回答を得ました。一部の参加者は「複数の露出」を受け取ったと言うことができます(各露出は、私に2つの質問をして、2つの回答を取り戻す場合です)。
DW

そうですか!それが私が誤解していたことです-申し訳ありませんが、もっと早く理解できませんでした。データを収集している3番目のディメンションがあります(たとえば、時間とともに)。その場合、一般化された推定方程式または混合モデルでロジスティック回帰を使用することをお勧めします。3番目の次元が正確な時間ではない場合でも、ここでは縦モデルが有効です。また、3次元でテーブルを層別化し、各次元でマクネマーを実行することもできます。
StatsStudent 2016年

回答:


0

私の答えのコンテキスト

私は昨日この質問を自習しました(ここで混合モデルを使用する可能性に関する部分)。私はこの2x2テーブルのアプローチに関する私の新鮮な新しい理解を恥知らずに捨て、より高度なピアが私の不正確さや誤解を修正するのを待ちます。私の答えは長くなり、過度に教訓的になります(少なくとも教訓的になることを試みます)。まず第一に、私はあなたがここで述べたあなたの混乱を共有したと言わなければなりません。

基礎となる変数が連続的である場合(例:実数)と線形モデルが適切な場合に、この状況を処理することを目的としていると思われるマルチレベルモデルについて読みました

この論文のカテゴリカル応答データの変量効果モデリングのすべての例を調べました。タイトル自体はこの考えに反しています。繰り返し測定を行う2x2テーブルの問題については、セクション3.6の例が議論に密接に関連しています。私の目標はそれを説明することなので、これは参照用です。今後このコンテキストが不要になった場合は、このセクションを編集する可能性があります。

モデル


πlogtπ=FバツedEffects+RadoメートルEffect

RadoメートルEffectN0σ


πjv

logtπjv=βjv+あなたv

固定効果について

β1v=β2v=βvβjvβvβ1=β2

変量効果について

あなたjあなたv あなたN0σ1あなたjN0σ2

命題

あなた+あなたvあなたvあなたあなた

model1<-glmer(yes ~ Question + (1 | Subject/Question ), data = df, family = binomial)
model2<-glmer(yes ~ Question + (1 | Subject:Question ), data = df, family = binomial)
anova(model1,model2) 

(1 | Subject/Question )あなた+あなたv(1 |Subject:Question)あなたvanova


うわー!この詳細な回答をありがとう!これは私に素晴らしい背景を与えます。ただし、これを使用して質問#1の回答が質問#2の回答に関連付けられているかどうかをテストする方法はまだわかりません。それを行う方法について詳しく説明できますか?質問1の答えのモデルを取得する方法を確認します。質問2の答えのモデル。しかし、これらのモデルは本質的に2つの答えが独立していることを前提としていますが、私の場合、それがまさに私がテストしたいものです。
DW

β1β2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.