ペアワイズ完全観測の相関の問題
あなたが説明する場合、主な問題は解釈です。ペアワイズ完全観測を使用しているため、実際には、欠落している観測に応じて、相関ごとにわずかに異なるデータセットを分析しています。
次の例について考えてみます。
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
三つのデータセット内の変数、a
、b
、とc
、それぞれがいくつかの欠損値を持っています。ここで変数のペアの相関を計算する場合、問題の両方の変数の欠損値がないケースのみを使用できます。この場合、その手段は、あなたが間の相関のためにちょうど最後の3例を分析することになるだろうa
とb
、間の相関のためだけの最初の3例b
とc
、など
各相関を計算するときに完全に異なるケースを分析しているという事実は、結果の相関パターンが無意味に見える可能性があることを意味します。見る:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
この論理的な矛盾のように見える--- a
とはb
強く正相関している、とb
してc
も、強く積極的に相関している、あなたが期待するように、a
かつc
確実にうまくとして相関することが、反対方向に強い関連が実際にあります。多くのアナリストがそれを好まない理由がわかります。
whuberからの有用な説明を含むように編集します。
議論の一部は、「強い」相関が何を意味するかによって異なることに注意してください。それのために非常に可能であるa
とb
同様b
とc
の間の「反対方向に強い関連性」が存在している間、「強い正の相関」されるa
とc
はなく、非常にこの例のように極端として。問題の核心は、推定された相関(または共分散)行列が正定ではない可能性があることです。それが、「強い」を定量化する方法です。
欠落のタイプに関する問題
「そうですね、各相関で使用できるケースのサブセットが、完全なデータがあった場合に得られるのと同じパターンとほぼ同じであると仮定しても大丈夫ではないでしょうか?」そして、はい、それは本当です--- 利用可能なデータがランダムである限り、データのサブセットで相関を計算することには根本的な問題はありません(もちろん、サンプルサイズが小さいため、精度と検出力が失われます)。欠落がない場合に存在していたであろうすべてのデータのサンプル。
欠落が純粋にランダムな場合、それはMCAR(完全にランダムに欠落)と呼ばれます。その場合、欠落のないデータのサブセットを分析しても、結果に系統的にバイアスがかかることはなく、上記の例で示したようなナッツのような相関パターンを取得することは(不可能ではありませんが)不可能です。
欠落が何らかの方法で系統的である場合(多くの場合MARまたはNIと略記され、2つの異なる種類の系統的欠落を示します)、計算にバイアスを導入する可能性と、対象の母集団に対する結果(分析するサンプルは、完全なデータセットがあったとしても、母集団からのランダムなサンプルではないため)。
そこ欠落データを、どのように対処することを学ぶために利用できる素晴らしい多くのリソースがありますが、私の推薦はルービンです:
古典的な、
そしてより多くの最近の記事