多くの観測と多くの変数を含むデータフレームがあります。それらの一部はカテゴリカル(順不同)であり、その他は数値です。
これらの変数間の関連を探しています。私は数値変数の相関(スピアマンの相関)を計算できましたが、
- 順序付けされていないカテゴリ変数間の相関を測定する方法がわかりません。
- 順序付けられていないカテゴリ変数と数値変数の相関を測定する方法がわかりません。
誰もこれがどのように行われるか知っていますか?ある場合、これらのメソッドを実装するR関数はありますか?
多くの観測と多くの変数を含むデータフレームがあります。それらの一部はカテゴリカル(順不同)であり、その他は数値です。
これらの変数間の関連を探しています。私は数値変数の相関(スピアマンの相関)を計算できましたが、
誰もこれがどのように行われるか知っていますか?ある場合、これらのメソッドを実装するR関数はありますか?
回答:
それはあなたが望む相関の感覚に依存します。プロトタイプのピアソンの積率相関を実行すると、関連の強さの尺度が得られ、その関連の有意性のテストが得られます。ただし、より一般的には、有意性検定と効果サイズの尺度は異なります。
有意性テスト:
効果の大きさ(関連の強さ):
次のチートシートがリンクされているのを見たことがあります。
https://stats.idre.ucla.edu/other/mult-pkg/whatstat/
役に立つかもしれません。特定のRライブラリへのリンクもあります。
このような分析は、多重コレスポンデンス分析の一般化とみなすことができ、正準相関分析、同質性分析など、多くの名前で知られています。Rの実装はhomals
パッケージにあります(CRANで)。この名前のいくつかをグーグルで検索すると、豊富な情報が得られます。完全な本があります。AlbertGifi、「Nonlinear Multivariate Analysis」。幸運を!
同様の問題があり、提案されたようにカイ2乗検定を試しましたが、NULL仮説に対するP値の評価で非常に混乱しました。
カテゴリ変数をどのように解釈したかを説明します。あなたの場合、それがどの程度関連しているかわかりません。応答変数Yと2つの予測変数X1とX2がありました。X2は2つのレベルを持つカテゴリ変数で、1と2を表します。線形モデルを近似しようとしました
ols = lm(Y ~ X1 + X2, data=mydata)
しかし、X2のさまざまなレベルが上記の式にどのように適合するかを理解したかったのです。R関数に遭遇しました()
by(mydata,X2,function(x) summary(lm(Y~X1,data=x)))
このコードは、X2の各レベルの線形モデルに適合しようとしています。これにより、すべてのP値とR 2乗、残差標準誤差が得られ、これを理解して解釈できます。
繰り返しますが、これがあなたが望むものかどうかはわかりません。Yを予測する際に、X2の異なる値を比較しました。
2つのカテゴリ変数間のリンク強度を測定するには、chisquare統計でクロスタブを使用することをお勧めします
数値変数とカテゴリ変数間のリンク強度を測定するには、平均比較を使用して、あるカテゴリから別のカテゴリに大幅に変化するかどうかを確認できます