カテゴリー名義変数間のカテゴリー間の相関


9

2つのカテゴリー名義変数(両方とも5つのカテゴリー)を持つデータセットがあります。これらの2つの変数からカテゴリ間の潜在的な相関関係を特定できるかどうか(およびその方法)を知りたいのですが。

言い換えると、たとえば変数1のカテゴリの結果が変数2の特定のカテゴリと強い相関を示すかどうか。5つのカテゴリを持つ2つの変数があるため、すべてのカテゴリの相関分析の合計は25の結果になります。 (少なくともそれが私が望むように/期待するように機能する場合)ij

私は問題を具体的な質問に定式化しようとしました:

質問1:カテゴリ変数を値(カテゴリ)ごとに5つの異なるダミー変数に転送するとします。これと同じ手順を2番目の変数に対しても実行します。次に、ダミーの1.iと2.i(たとえば)の相関関係を調べたいと思います。通常の相関係数手順を使用してこの手順を実行するのは統計的に正しいですか?この手順から得られる相関係数は、2つのダミー変数間の相関関係について適切な洞察を提供しますか?

質問2:質問1で説明されている手順が有効な手順である場合、この分析を2つ(またはそれ以上)のカテゴリ名義変数のすべてのカテゴリに対して一度に実行する方法はありますか?

私が使用しているプログラムはSPSS(20)です。


@Michael Mayerによるポイントは、改訂された質問に適用されます。
Nick Cox

1
2つの変数が相関していない場合、5x5の周波数行列のすべてのセルに1/25があります。したがって、統計、ここでおよび -いずれかの観測頻度2つの変数の5つの値が適切です。χ2xy(OE)2EE=xyOxy/25Oxy
Aksakal 2014

3
@Aksakal "相関なし"はここでは間違った用語です。変数は名目であるため、相関関係は定義されていません。私はあなたが独立を意味すると思いますが、独立は周波数が等しいことも意味しません。独立したセル周波数は、限界周波数に依存します。
Nick Cox、

回答:


6

私たちが知っているように、一方の名目変数のカテゴリー一方のカテゴリー変数のカテゴリーの間の「焦点」関連は、セル残差周波数によって表されます。残差が0の場合、周波数は、2つの名目変数が関連付けられていないときに予期されるものであることを意味します。残差が大きいほど、サンプル内の組み合わせが過剰に表れるため、関連付けが大きくなります。大きな負の残差は、同等ではない組み合わせを表します。だから、周波数残差はあなたが望むものです。j i j i jijijij

ただし、生の残差は、限界合計と全体の合計、およびテーブルサイズに依存するため、適切ではありません。値はどのようにも標準化されていません。ただし、SPSSはピアソン残差とも呼ばれる標準化残差を表示できます。残差は、残差を標準偏差の推定値で割ったものです(期待値の平方根に等しい)。テーブルのセント残差には、平均0とセントがあります。開発者。1; したがって、st。残差は、量的変数の分布のz値のようにz値を提供します(実際には、ポアソン分布のzです)。聖残差は、同じサイズで同じ合計異なるテーブル間で比較できます。分割表のカイ2乗統計は、stの2乗の合計です。残差N初期化。stを比較します。テーブル内および同じボリュームのテーブル間の残差は、カイ2乗統計に最も寄与する特定のセルを特定するのに役立ちます。

SPSSは、調整済み残差(=調整済み標準化残差)も表示します。調整。残差は、標準誤差の推定値で除算された残差です。その調整を興味深い。残差は、に等しくなりますは総計で、は、2つの名義変数のカテゴリとに対応するダミー変数間のピアソン相関(別名Phi相関)です。 。このはまさに計算したいものです。調整。残差はそれに直接関係しています。 Nr i j ijrNrijNrijijr

セントとは異なり。残差、調整。残差は、テーブル内の周辺分布の形状に合わせて標準化されます(そのセルだけでなく、その行と列の外側のセルでも予測頻度が考慮されます)。そのため、直接強度を確認できます。カテゴリーと結びつける- 限界合計が他のカテゴリーと比較して大きいか小さいかを心配する必要はありません。調整。残差もzスコアに似ていますが、正規分布(ポアソンではない)のzに似ています。調整する場合。残差が2を超えるか-2未満である場合、レベル有意であると結論付けることができます。調整。残差は依然として影響を受けます。j 1 N r r 2ijp<0.051Nrはありませんが、すべてのをadjから取得できます。ダミー変数を生成するために時間を費やすことなく、上記の式に従う残差。r2

2番目の質問に関しては、3ウェイのカテゴリ結合について-これは、残差も表示する一般的な対数線形分析の一部として可能です。ただし、3方向のセル残差の実用的な使用は控えめです。3(+)方向の関連測定は簡単に標準化されず、簡単に解釈できません。


1.96 21セント 正規曲線は、2.5%の裾のカットポイントであるため、両側対立仮説のように両方の裾を考慮すると5%になります。1.962

i j r i j Pr i 1 Pr i 2 i i2セル調整された残差の有意性は、有意性と等しくなります。さらに、テーブルに2列しかない場合、と間の比率のz検定を実行している場合、行列比率、その検定のp値は、両方の(任意の)adjの有意性に等しくなります。2列のテーブルの行の残差。ijrijPr(i,1)Pr(i,2)ii


1

ここにある SPSSの2変量統計に関するドキュメントから直接取得:

カイ2乗は、2つの順序変数、2つの名義変数の間、または順序変数と名義変数の間に関係があるかどうかを確認するために使用できるため、便利な手法です。あなたはassympを見ます。Sigカラム。0.05未満の場合、2つの変数間の関係は統計的に有意です。


4
わかりましたが、3つの不平、1つのメジャー、2つの非常にマイナー。2つの順序変数のカイ2乗は、順序を無視します。これではありませんSPSSの文書が、他の誰かによる元素導入、ちょうど述べたように、彼らは、オーバー簡素化します。彼らは「Asymp」をコピーしませんでした。正しく(前のページの例)。OPのより大きな問題は、相関がここでは間違っているということです。「関連付け」は、関連付けの測定、テスト、および(すべての中で)モデリングの観点からのキーワードです。
Nick Cox

1
おかげで、私はthe SPSS document少し編集しましたが、それに過度の信頼性を付加するつもりはありませんでした。
Zhubarb 2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.