多くの参加者から測定値を収集する実験を行いました。関連する各データポイントには2つの変数があり、どちらもカテゴリ型です。実際、各変数には2つの可能な値があります(2つのはい/いいえの質問に対する答え)。統計的仮説検定で、これら2つの変数間に相関があるように見えるかどうかを確認してください。
参加者ごとに1つのデータポイントがある場合、結果として得られる分割表に対してフィッシャーの正確検定を使用できます。ただし、参加者ごとに複数のデータポイントがあります。したがって、単一の参加者からのデータポイントは独立していないため、フィッシャーの正確確率検定は適用可能ではないようです。たとえば、アリスから10個のデータポイントがある場合、それらはすべて同じ人物からのものであるため、おそらく独立していません。フィッシャーの正確確率検定では、すべてのデータポイントが独立してサンプリングされたと想定されているため、フィッシャーの正確確率検定の仮定は満たされておらず、この設定での使用は不適切です(統計的有意性の不当な報告が出る可能性があります)。
この状況を処理するテクニックはありますか?
私が検討したアプローチ:
もっともらしい代替策の1つは、各参加者からのすべてのデータを1つの数値に集約してから、他の独立性テストを使用することです。たとえば、各参加者について、最初の質問に対するはいの回答の割合と2番目の質問に対するはいの回答の割合を数え、参加者ごとに2つの実数を与え、ピアソンの積率検定を使用して相関をテストできますこれら2つの数値の間。しかし、これが良いアプローチかどうかはわかりません。(たとえば、平均化/カウントがデータをスローし、集計のためにこれが能力を失う可能性があること、または集計後に依存の兆候が消えることがあることを心配しています。)
基礎となる変数が連続的である場合(実数など)と線形モデルが適切な場合に、この状況を処理することを目的としていると思われるマルチレベルモデルについて読みました。ただし、ここでは2つのカテゴリ変数(はい/いいえの質問に対する回答)があるため、ここでは適用されないようです。カテゴリカルデータに適用できる同等の手法はありますか?
ウィキペディアで繰り返し測定のデザインについて少し読んだこともありますが、ウィキペディアの記事は縦断的研究に焦点を当てています。これはここでは当てはまらないように見えます。私がそれを正しく理解していれば、繰り返しの測定は時間の経過による影響に焦点を合わせているようです(時間の経過が変数に影響する場合)。しかし、私の場合、時間の経過が関連する影響を与えることはありません。私が誤解した場合は教えてください。
さらに振り返ってみると、私に起こる別のアプローチは、置換テストを使用することです。各参加者について、質問1への回答をランダムに並べ替え、質問2への回答を(独立して)ランダムに並べ替え、参加者ごとに異なる順列を使用できます。ただし、どの結果が観察された結果と「少なくとも極端」であるかを測定するために、ここではどのテスト統計が適切であるかは明確ではありません。
関連:各被験者ごとに複数のデータポイントを正しく処理する方法(ただし、カテゴリカルデータではなく、連続変数の線形モデルに焦点を当てています)、同じ患者で測定は独立していますか?(同じ)