非排他的なカテゴリ変数を使用して独立性をテストするにはどうすればよいですか?


8

前書き

私は、多くの行とバイナリの結果を含むカテゴリー分割表を持っています。

name  outcome1  outcome2
----  --------  --------
A     14        5       
B     17        2       
C     6         5       
D     11        8       
E     18        14

両方のカテゴリ(名前と結果)は互いに独立しているため、これで問題ありません。つまり、人物Aが人物Bになることはできず、結果1は結果2 と同時に発生しません。

問題を追加する

ただし、エージェントにクラスを割り当てることで、データセットを充実させたいと思います。クラスは排他的ではなく、一部は相互に依存することさえあります。上記の例では、4つのクラスC xがあります。

name  C1   C2   C3   C4 
----  ---  ---  ---  ---
A     0    0    1    1  
B     1    0    1    0  
C     1    1    0    1  
D     1    1    0    0  
E     1    1    1    0

ここで、1つのクラスが実験の結果に依存しているかどうかを調べたいと思います。

可能な(ナイーブ)ソリューション

私のアイデアは、最初はクラスに基づいて集計してから、独立性テストを実行することでした。その結果、テーブルは次のようになります。

class   outcome1  outcome2
------  --------  --------
C3      49        21
not_C3  17        13

しかし、クラスに基づいて分離するため、他のクラスの影響をこのメソッドでマスクすることに気づきました。クラスの一部が互いに強く依存している場合、悪い結果をもたらす可能性があります。

また、私の実際のデータセットには約200のエージェントと30のカテゴリが含まれているため、この方法では多くの結果が得られます。

質問

これを念頭に置いて、私はあなたに目を向けます。1つのカテゴリ非排他的変数と1つのバイナリカテゴリ変数を持つデータセットへの(非)依存性をテストするために適用できる統計的方法は何ですか。

「カテゴリ1は結果の最も強力な予測子です(p <0.01。カテゴリ2とも相関しています」のようにいくつかの結果を得たいと思います。

PythonやRを使用したソリューションは大歓迎ですが、コードは必要ありません。どの方法が適用できるかを知る必要があります。


結果1と結果2も独立していますか?あなたはそれらが同時に起こらないと言うだけです。複数の変数の結果への依存性を測定する場合は、ここでポアソン回帰を実行できると思います。しかし、説明変数が非常に依存している場合、これは問題になる可能性があります。
Erosennin

はい、結果1と結果2は独立しています。
tschoppi

「結果1が結果2と同時に発生しない」場合、それらは確かに独立していません。それは文脈を説明するのに役立ちます-あなたは一人一人に対してどのような観察をしていますか?
Scortchi-モニカの回復

@Scortchiその独立ステートメントについて詳しく教えていただけますか?それらは同時に発生するため、独立することはできませんか?
Erosennin

あなたが書く@tschoppi:「今、私はこれらの人々に(手動で)クラスを割り当て、出力がクラスの1つに依存するかどうかをテストしたいと思います。私の問題は、クラスが必ずしも互いに依存しているわけではないことです。排他的ではありません。ただし、クラスは互いに依存する場合があります。」それらが排他的であるという事実は、ポアソン回帰を指定するときにそれらを互いに相互作用させることによって解決できます。私がここで完全に
順調に進んで

回答:


0

説明変数としてclass1、class2、class3またはclass4を使用して、outcome1と結果2(応答変数)に個別にポアソン回帰を行うことをお勧めします。

クラスは排他的ではないと言いますが、クラス間の相互作用を考慮に入れれば、これは問題ではありません。相互作用の詳細については、次の投稿を参照してください。glm()を使用した相互作用用語の仕様と解釈

クラス間の依存関係を処理する方法(ポアソン回帰の実行に関して)、私には抜け道がありません。カイ2乗検定を使用して関連の有意性、およびCramerのVを使用して関連の強さを測定できます。これがあなたの質問に答えるなら、私にはわかりません。


私は、(1)関心が結果2に対する結果1の数に焦点を当てている可能性があること、および(2)人/エージェントのレベルを無視することが賢明でない可能性があると考えています。
Scortchi-モニカを回復

(1)係数(回帰からの出力)の結果1と結果2の比較で答えられませんか?
Erosennin

(1)はい。しかし、正確にそれらを比較する方法は、質問の重要な部分のようです。(便利なアプローチは、「結果タイプ」を「カウント」の予測子として扱い、「クラス」変数とのすべての相互作用を含めることです。2つの個別の回帰を含むより大きなモデルがあります。これは対数線形モデルです。多次元分割表の場合-ただし、両者の違いは簡単にパラメーター化されています。さらに進んで、迷惑パラメーターと見なされるものを条件付けすることにより、それをロジスティック回帰モデルに変えることができます。)
Scortchi-Reinstate Monica

(2)2番目のポイントはより重要です。トムとディックは一週間に20本と35本のタバコを吸います。ハリーとピート、いくつかの新しい禁煙治療について、30と280。合計数を比較して、治療の有効性を評価しますか。使用していない人が吸ったたばこ55通 それを使っている人が吸った、310?
Scortchi-モニカの復活

1
(1)2つ以上の回帰モデルの勾配を比較するために使用できるテストを参照してください一般的な「一つの大きなモデル」のアイデアのために、&その後、ロジスティック回帰対対数線形回帰の語&ドイツ語・ロドリゲス対数線形モデル。(2)before after afterのペアの比較は役立つでしょうが、私の例では(申し訳ありませんが)階層モデルであると示唆するつもりはありませんでした。
Scortchi-モニカの回復
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.