連続変数とカテゴリー変数(名義変数)の相関


42

連続(従属変数)変数とカテゴリ(名目:性別、独立変数)変数の間の相関関係を見つけたいと思います。連続データは通常は配布されません。以前は、スピアマンのを使用して計算していました。しかし、私はそれが正しくないと言われました。ρ

インターネットで検索しているときに、箱ひげ図がそれらがどの程度関連付けられているかについてのアイデアを提供できることがわかりました。ただし、ピアソンの積率係数やスピアマンのなどの定量化された値を探していました。これを行う方法について私を助けてもらえますか?または、どの方法が適切かを教えてください。ρ

Point Biserial Coefficientは正しいオプションでしょうか?


通常、データの形式に基づいてのみアドバイスすることはできません!データは何を表しており、分析で何を達成したいですか?
kjetil bハルヴォルセン14年

1
kjetilに感謝します。性別と他の連続変数との関連を比較したいと思います。単純に知っておくと、どの連続変数が中程度/強い相関関係にあり、どの変数がそうではないかです。
フェルダスワヒド医師14

1
stats.stackexchange.com/questions/25229/の複製のよう です…その答えがあなたに役立つかどうか教えていただけますか?
kjetil bハルヴォルセン14年

はい、私の質問はそれに似ています。しかし、スピアマンのが適切でないと校閲者が指摘したフィードバックを受け取りました。サンプルサイズは31です。答え(提供されたリンク)によれば、非正常は問題ではなく、大規模なデータセットには任意の相関法(スピアマン/ピアソン/ポイントバイシリアル)を使用できます。それは小さなデータセットにも当てはまりますか?ちなみに、性別は人為的に作成された名目尺度ではありません。上記のリンクでは、バイシリアル相関係数を使用する必要があります。ρ
フェルダウスワヒド医師14

3
公称変数と間隔変数または順序変数の相関stats.stackexchange.com/q/73065/3277
ttnphns

回答:


25

レビューアーは、スピアマンが適切ではない理由を説明しているはずです。その1つのバージョンを次に示します。データをここで、は測定された変数であり、は性別インジケータです。たとえば、0(男性)、1(女性)です。次に、スピアマンのがそれぞれランクに基づいて計算されます。インディケーター値は2つしかないため、多くの結び付きがあるため、この式は適切ではありません。ランクを平均ランクに置き換えると、2つの異なる値のみが得られます。1つは男性、もう1つは女性です。その後、Z II IZ I ρ Z I I ρρ(Zi,Ii)ZIρZ,IIρ基本的に、2つのグループ間の平均ランクの再スケーリングされたバージョンになります。単純に平均を比較する方が簡単です(より解釈しやすい)!別のアプローチは次のとおりです。

レッツ男性の間で連続変数の観測も、女性の間で同じ。ここで、と分布が同じである場合、は0.5になります(分布が純粋に完全に連続であると仮定してみましょう。一般的な場合、定義します。 ここで、は男性の間のランダムな引き分け、は女性の間の引き分けです。サンプルからを推定できますか?すべてのペア(ないと仮定)、「人が大きい」()(Y 1... Y M X Y P X > Y θ = P X > Y X Y θ X IYのJX I > Y jの M X I < Y J W θ MX1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjM)および「女性が大きい」数()()。 1つのサンプル推定値は これは、相関の1つの合理的な尺度です。(わずかな関係しかない場合は、無視してください)。しかし、名前がある場合、それが何と呼ばれるのかわかりません。これは近いかもしれません:https : //en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaXi<YjWθ
MM+W

5
スピアマンのランク相関は、数値変数のランクと元のバイナリ変数の値に適用されるピアソンの相関です(ランク付けはここでは効果がありません)。したがって、スピアマンのrhoは、ポイント-バイシリアル相関のランクアナロジーです。この状況でスピアマンのローを記述的に使用しても問題はありません。
マイケルM 14年

マイケル・メイヤー:はい、多分うまくいくかもしれませんが、そこに何かポイントはありますか?何らかの手段の違いに含まれていない情報は提供しません!そして、それはより直接的に解釈可能です。
kjetil bハルヴォルセン

1
ランクの違いは、スピアマンのローとして解釈するのがはるかに簡単ですか?そうだとしても、スピアマンのローを間違っていると呼ぶだろうか?校閲者の推論が表示されないことを悲しい。
マイケルM 14年

1
あなたが提案するのは素晴らしいことです。これは、ウィルコクソンの2標本検定の検定統計量に関連しているようです。これは、数値結果とバイナリグループ変数間のケンドールの順位相関に類似しています。
マイケルM 14年

1
@ tao.hongどの意味で非対称だと思いますか?ラベル(男性/女性)を切り替えると、と両方が同様に切り替わります。θ 1 - θθθ^1θ
kjetil bハルヴォルセン16

8

私は今、同じ問題を抱えています。まだ誰もこれを参照していないようですが、ピアソン相関係数から構築されたPoint-Biserial Correlationを研究しています。連続変数と二分変数の平均です。

クイック読み取り:https : //statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

Rを使用していますが、SPSSには優れたドキュメントがあります。


1
連続変数と二分変数の間の相関を見つけるための素晴らしいリファレンス!ただし、リストされている仮定は少し強いです。
サンドン

1

最も適切な比較は、中央値(通常ではないため)とバイナリカテゴリ間の分布を比較することです。ノンパラメトリックマンホイットニー検定をお勧めします...


6
Mann-Whitneyは、バイナリカテゴリ変数全体の変数(または実際にはより一般的な確率的優位性)の位置シフトを識別する方法ですが、Mann-Whitneyは少なくとも追加の仮定がない限り、中央値を比較しません。
Glen_b

1

特定の問題については、受信者のオペレーター特性曲線の曲線下面積を測定すると役立つ場合があります。

私はこれの専門家ではないので、シンプルにしようとしています。私はそれを変更できるように、エラーや間違った解釈についてコメントしてください。

yxyxxx

xx

xx

上記のステートメントは、曲線下面積で計算されます。

良好な相関(右)と公正な反相関(左)の例良好な相関(右)と公正な逆相関(左)。


1
CVへようこそ!あなたの答えは少し短すぎて、「連続(従属変数)変数とカテゴリ(名目:性別、独立変数)変数との相関関係」を見つける助けにはならないようです。回答を編集して、AUROCがこれを達成する方法を含めてください。
フランスロデンブルク

-3

独立性に代わる線形トレンドを使用する必要があります。この方法がわからない場合は、カテゴリーデータ分析の紹介ページ41をご覧ください。


4
すでに受け入れられた答えがあります。そして、あなたの答えが何に貢献しているかは明らかではありません。もっと説明してもらえますか?Agrestiのカテゴリカルデータ分析の紹介を参照していると思います。完全な引用を提供してください。
TEG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.