前書き
私は、多くの行とバイナリの結果を含むカテゴリー分割表を持っています。
name outcome1 outcome2
---- -------- --------
A 14 5
B 17 2
C 6 5
D 11 8
E 18 14
両方のカテゴリ(名前と結果)は互いに独立しているため、これで問題ありません。つまり、人物Aが人物Bになることはできず、結果1は結果2 と同時に発生しません。
問題を追加する
ただし、エージェントにクラスを割り当てることで、データセットを充実させたいと思います。クラスは排他的ではなく、一部は相互に依存することさえあります。上記の例では、4つのクラスC xがあります。
name C1 C2 C3 C4
---- --- --- --- ---
A 0 0 1 1
B 1 0 1 0
C 1 1 0 1
D 1 1 0 0
E 1 1 1 0
ここで、1つのクラスが実験の結果に依存しているかどうかを調べたいと思います。
可能な(ナイーブ)ソリューション
私のアイデアは、最初はクラスに基づいて集計してから、独立性テストを実行することでした。その結果、テーブルは次のようになります。
class outcome1 outcome2
------ -------- --------
C3 49 21
not_C3 17 13
しかし、クラスに基づいて分離するため、他のクラスの影響をこのメソッドでマスクすることに気づきました。クラスの一部が互いに強く依存している場合、悪い結果をもたらす可能性があります。
また、私の実際のデータセットには約200のエージェントと30のカテゴリが含まれているため、この方法では多くの結果が得られます。
質問
これを念頭に置いて、私はあなたに目を向けます。1つのカテゴリ非排他的変数と1つのバイナリカテゴリ変数を持つデータセットへの(非)依存性をテストするために適用できる統計的方法は何ですか。
「カテゴリ1は結果の最も強力な予測子です(p <0.01。カテゴリ2とも相関しています」のようにいくつかの結果を得たいと思います。
PythonやRを使用したソリューションは大歓迎ですが、コードは必要ありません。どの方法が適用できるかを知る必要があります。