二分変数と連続変数の間の相関


10

私は二分変数と連続変数の間の相関関係を見つけようとしています。

これに関する私の最初の作業から、私は独立したt検定を使用する必要があることを発見しました。その前提条件は、変数の分布が正規でなければならないことです。

正規性をテストするためにKolmogorov-Smirnov検定を実行したところ、連続変数が非正規であり、歪んでいることがわかりました(約4,000データポイント)。

変数の範囲全体に対してコルモゴロフ・スミルノフ検定を行いました。それらをグループに分割してテストを実行する必要がありますか?つまり、私がrisk level0=危険ではない、1=危険)とコレステロール値を持っている場合、次のことを行う必要があります:

  • それらを次のように2つのグループに分けます。

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • それらを一緒に取り、テストを適用しますか?(データセット全体でのみ実行しました。)

その後、それでも正常でない場合はどうすればよいですか?

編集: 上記のシナリオは、私が自分の問題に提供しようとした説明にすぎません。1000を超える変数と約4000のサンプルを含むデータセットがあります。それらは本質的に連続的またはカテゴリー的です。私の仕事は、これらの変数に基づいて二分変数を予測することです(たぶんロジスティック回帰モデルを考え出す)。そのため、最初の調査には、二分変数と連続変数の相関関係を見つけることが含まれると考えました。

私は変数の分布がどのようになっているかを確認しようとしていたため、t検定を試みました。ここで私は問題として正常性を見つけました。コルモゴロフ-スミルノフ検定では、これらの変数のほとんどで有意値0.00が得られました。

ここで正常性を仮定する必要がありますか?これらの変数の歪度と尖度は、ほとんどすべての場合にデータが歪んでいる(> 0)ことも示しています。

以下の注記に従って、ポイントとバイセリアルの相関をさらに調査します。しかし、変数の分布についてはまだわかりません。


1
連続とバイナリ(グループ)変数の間の(任意の種類の)相関は、グループ間の平均(ある種の平均...)の比較よりもはるかに(そしておそらくは少なく...)ないので、通常それをやったほうがいいです!
kjetil b halvorsen 2014年

回答:


13

私は少し混乱しています。あなたのタイトルは「相関」を示していますが、あなたの投稿はt検定に言及しています。t検定は中心位置の検定です。より具体的には、あるデータセットの平均が別のセットの平均と異なるのですか?一方、相関は2つの変数間の関係を示します。相関測度にはさまざまなものがありますが、あなたの場合、点と双線の相関が適切であるようです。

t検定が正規性を仮定していることは正しいです。ただし、正規性のテストは、Nが4000の些細な非正規性でも重要な結果をもたらす可能性があります。T検定は、2つのデータセットの分散がほぼ等しく、サンプルがサイズはほぼ同じです。ただし、ノンパラメトリック検定は外れ値に対してより堅牢であり、分布が正規であっても、それらのほとんどはt検定とほぼ同じパワーを持ちます。

ただし、あなたの例では、「コレステロール」を危険または危険ではないものとして使用しています。これはほぼ間違いなく悪い考えです。連続変数を二分すると、魔法のような思考が生まれます。ある時点で、コレステロールは「危険ではない」から「危険な」ものになると言われています。カットオフとして200を使用したとします。コレステロールが201の人は400の人と同じで、199の人は100の人と同じだと言っています。これは意味がありません。


2
私は同意し、私たちのほとんどは同意していると思いますが、廃棄物情報を二分することは、それが粗雑な方法、粗雑な方法、または不器用な方法になる可能性があることです。「魔法の思考」の議論は少し行き過ぎだと思います。違いをつぶすことを選択することは、違いがないと信じることと同じではありません。分析またはレポートの目的で、いくつかの連続変数からカテゴリーを作成するのが便利でトレードオフに見合う価値が見つかる時が来ると思います。ちょうど私の2セント。
rolando2

2
R2

5

簡単にしましょう。コレステロール値がN = 4,000の場合、外れ値によって結果が偏ることに問題はありません。したがって、最初の文で暗示されているように、相関自体を使用できます。Pearson、Spearman、Point-Biserialのいずれの方法で相関を評価しても、違いはほとんどありません。

代わりに、リスクの高いグループとリスクの低いグループの間の典型的なコレステロールの違いに関して結果を語る必要がある場合は、マンホイットニーU検定を使用するのが適切ですが、より有益なt検定を使用することもできます。このN(そして、天文学的な外れ値があれば間違いなく除外できるもの)があれば、正規性の欠如が結果を損なうことを心配する必要はありません。


お返事をありがとうございます。しかし、外れ値について知る必要がある場合、大きな歪みが生じる場合、尖度と歪度を使用してそれを検出することは正しいですか?これが真である場合、尖度と歪度のどの値よりも上にある場合、分布は正規ではないと想定する必要があります。ご返信いただきありがとうございます
スリーオーロビンド2012年

限られた内容の知識に基づいて、コレステロールを使用すると、他のものよりも桁違いに高い値は得られないと想定しています。そのため、相関やt検定などのパラメトリック手法を使用できると思います。分布が正常だと思うのではありません。正常である必要はありません。ちなみに、ピーターの答えに照らして、コレステロールスコアとは関係のないハイ/ローリスクステータスの原因がいくつかあると信じていました(そして期待しています)。二分することはおそらく役に立たないことに同意します。
rolando2

2
「EDIT:....」とマークされたセクションを元の質問に追加することをお勧めします。これは、これまでに受け取った回答やコメントで対処されていない、残っている質問を詳しく説明しています。
rolando2

あなたの提案をありがとう。私は同じ場所を曖昧な質問のために最初に更新した。申し訳ありません。ありがとう
Sree Aurovindh
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.