私は二分変数と連続変数の間の相関関係を見つけようとしています。
これに関する私の最初の作業から、私は独立したt検定を使用する必要があることを発見しました。その前提条件は、変数の分布が正規でなければならないことです。
正規性をテストするためにKolmogorov-Smirnov検定を実行したところ、連続変数が非正規であり、歪んでいることがわかりました(約4,000データポイント)。
変数の範囲全体に対してコルモゴロフ・スミルノフ検定を行いました。それらをグループに分割してテストを実行する必要がありますか?つまり、私がrisk level
(0
=危険ではない、1
=危険)とコレステロール値を持っている場合、次のことを行う必要があります:
それらを次のように2つのグループに分けます。
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
それらを一緒に取り、テストを適用しますか?(データセット全体でのみ実行しました。)
その後、それでも正常でない場合はどうすればよいですか?
編集: 上記のシナリオは、私が自分の問題に提供しようとした説明にすぎません。1000を超える変数と約4000のサンプルを含むデータセットがあります。それらは本質的に連続的またはカテゴリー的です。私の仕事は、これらの変数に基づいて二分変数を予測することです(たぶんロジスティック回帰モデルを考え出す)。そのため、最初の調査には、二分変数と連続変数の相関関係を見つけることが含まれると考えました。
私は変数の分布がどのようになっているかを確認しようとしていたため、t検定を試みました。ここで私は問題として正常性を見つけました。コルモゴロフ-スミルノフ検定では、これらの変数のほとんどで有意値0.00が得られました。
ここで正常性を仮定する必要がありますか?これらの変数の歪度と尖度は、ほとんどすべての場合にデータが歪んでいる(> 0)ことも示しています。
以下の注記に従って、ポイントとバイセリアルの相関をさらに調査します。しかし、変数の分布についてはまだわかりません。