ギャップが大きい(データが欠落している)場合に使用する必要がある相関測定はどれですか?


8

私は年齢(6〜90歳)と声の大きさ(dB)を関連付けようとしています。ただし、私のデータには、20〜50年の範囲のデータポイントが含まれていません。

このようなかなりのギャップがある場合、どの相関測定が最も適切ですか。なぜですか。今までKendall Tauを使ってきました。

ここでは、バイモーダルに分散されたデータは扱っていませんが、年齢範囲のデータギャップが大幅に不足していることに注意してください。


1
タイトルは1つの変数にギャップがあることを示していますが、本体から、ギャップを計算しようとしている両方の変数にギャップがあるようです。では、どのデータが正確に欠落しているのでしょうか?
mpiktas 2011年

回答:


8

散布図作成して、単一の相関係数が変数間の関連付けの適切な記述であると想定することが理にかなっているかどうかを確認します。

たとえば、これらの(シミュレートされた)データでは、6〜20歳の相関は90%、50歳以上の相関は-70%、全体で15%です。そのような状況では、単一の相関係数を報告することは、ペットの半分が魚で残りの半分がクモである場合、家庭のペット間の平均脚数が4であると報告するのと同じくらい欺瞞的です...

シミュレートされた150人のラウドネスと年齢の散布図

相関関係の表現方法の選択は二次的な問題であり、データセットの他の側面に依存しています。


whuberは賢明です。大きなギャップがあるので、相関関係の単一の測定を重要視することはほとんど正当化されないと思います。
マイケル・ビショップ

(+1)素敵なクモの逸話!
Dmitrij Celov 2011年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.