相関行列を計算するときに欠損値のある観測を削除することで深刻な問題はありますか?


12

2500の変数と142の観測値のような巨大なデータセットがあります。

変数Xと残りの変数の間の相関関係を実行したいと思います。しかし、多くの列では、エントリが不足しています。

「ペアワイズ完全」引数(use=pairwise.complete.obs)を使用してRでこれを実行しようとすると、一連の相関が出力されました。しかし、StackOverflowの誰かがこの記事http://bwlewis.github.io/covar/missing.htmlへのリンクを投稿したため、Rの「pairwise-complete」メソッドが使用できなくなっています。

私の質問:「ペアワイズコンプリート」オプションを使用するのが適切な場合はどうすればわかりますか?

私がuse = complete.obs戻ってきたno complete element pairsので、それが何を意味するのかを説明できれば、それは素晴らしいことです。


4
知っておくべき古典的な話は、アブラハムウォルド話と、第二次世界大戦でどこに飛行機に鎧を追加するかという問題です。データが欠落している理由をある程度理解することが重要です。
マシューガン

回答:


11

ペアワイズ完全観測の相関の問題

あなたが説明する場合、主な問題は解釈です。ペアワイズ完全観測を使用しているため、実際には、欠落している観測に応じて、相関ごとにわずかに異なるデータセットを分析しています。

次の例について考えてみます。

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

三つのデータセット内の変数、ab、とc、それぞれがいくつかの欠損値を持っています。ここで変数のペアの相関を計算する場合、問題の両方の変数の欠損値がないケースのみを使用できます。この場合、その手段は、あなたが間の相関のためにちょうど最後の3例を分析することになるだろうab、間の相関のためだけの最初の3例bc、など

各相関を計算するときに完全に異なるケースを分析しているという事実は、結果の相関パターンが無意味に見える可能性があることを意味します。見る:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

この論理的な矛盾のように見える--- aとはb強く正相関している、とbしてcも、強く積極的に相関している、あなたが期待するように、aかつc確実にうまくとして相関することが、反対方向に強い関連が実際にあります。多くのアナリストがそれを好まない理由がわかります。

whuberからの有用な説明を含むように編集します。

議論の一部は、「強い」相関が何を意味するかによって異なることに注意してください。それのために非常に可能であるab同様bcの間の「反対方向に強い関連性」が存在している間、「強い正の相関」されるacはなく、非常にこの例のように極端として。問題の核心は、推定された相関(または共分散)行列が正定ではない可能性があることです。それが、「強い」を定量化する方法です。

欠落のタイプに関する問題

「そうですね、各相関で使用できるケースのサブセットが、完全なデータがあった場合に得られるのと同じパターンとほぼ同じであると仮定しても大丈夫ではないでしょうか?」そして、はい、それは本当です--- 利用可能なデータがランダムである限り、データのサブセットで相関を計算することには根本的な問題はありません(もちろん、サンプルサイズが小さいため、精度と検出力が失われます)。欠落がない場合に存在していたであろうすべてのデータのサンプル。

欠落が純粋にランダムな場合、それはMCAR(完全にランダムに欠落)と呼ばれます。その場合、欠落のないデータのサブセットを分析しても、結果に系統的にバイアスがかかることはなく、上記の例で示したようなナッツのような相関パターンを取得することは(不可能ではありませんが)不可能です。

欠落が何らかの方法で系統的である場合(多くの場合MARまたはNIと略記され、2つの異なる種類の系統的欠落を示します)、計算にバイアスを導入する可能性と、対象の母集団に対する結果(分析するサンプルは、完全なデータセットがあったとしても、母集団からのランダムなサンプルではないため)。

そこ欠落データを、どのように対処することを学ぶために利用できる素晴らしい多くのリソースがありますが、私の推薦はルービンです: 古典的なそしてより多くの最近の記事


2
abbcac

1
@whuberありがとう、それは重要なポイントです。その明確化を含めるために、回答のそのセクションを更新しました。
ローズハートマン

7

大きな懸念は、分析を破壊するような体系的な方法でデータが欠落しているかどうかです。ランダムではなくデータが欠落している可能性があります。

これは以前の回答で取り上げられましたが、私は例を挙げたいと思いました。

ファイナンスの例:見当たらない返品は収益が少ない可能性があります

  • ミューチュアルファンドとは異なり、プライベートエクイティファンド(およびその他のプライベートファンド)は、それらのリターンを中央データベースに報告することを法律で義務付けられていません。
  • したがって、主要な懸念は、報告が内生的であること、より具体的には、一部の企業が悪いリターンを報告しないことです。
  • 1niRiRi

これらの状況では必ずしもすべてが失われるわけではありませんが(できることはあります)、欠落していないデータに対して単純に回帰(または相関の計算)を実行すると、母集団の真のパラメーターの推定に深刻な偏りがあり、一貫性がなくなります。


4

ペアワイズ相関は、欠落データがMissing Complete At Random(MCAR)である場合に適しています。Paul AllisonのMissing Dataブックは、その理由から始めるのに適した場所です。

これは、BaylorEdPsychパッケージに含まれているLittle(1988)MCARテストを使用してテストできます。


1
懸念の原因は、まだあります。でも、MCARデータと、推定された相関行列を経由してペアワイズ相関が正定値であることを失敗する可能性があります。
whuber

確かに、しかし質問は相関について尋ねます、それは他のいくつかのアルゴリズムへの入力として結果として生じる相関行列の使用について何も言及しません。そして、サンプルサイズを考えると、MCARはとにかくかなりありそうにありません。
Tim

1
行列が正定でない場合、それは無効な推定です。少なくとも私たちは、その矛盾について心配する必要があります。MCARの可能性(欠落のメカニズム)がサンプルサイズにどのように関係しているのか、私にはわかりません。
whuber

質問者は、相関行列の1行に関心があります。行列が正定でない場合、行の相関がすべて無効であることを示す証明はありますか?私はこれの証拠を見て、いくつかの知恵を得たいです。MCARは、一般的に、実際のデータではほとんどありません。サンプルサイズが大きいと、リトルの検定の能力が高まるため、MCARの帰無仮説が棄却される可能性が高くなります。ここで誤解しないでください。多変量メソッドへの入力として部分データ相関行列を使用することは決してありませんが、これは質問の対象ではありません。
Tim

1
明確にさせてください:相関関係が「すべて無効」であると私は主張しませんでした。相関推定値のコレクション(つまり、行列)無効である可能性があると私は主張しました。@RoseHartmanがこのスレッドですでに実行した、無効な見積もりの​​インスタンスを1つ提示するだけでよいため、これは疑いの余地がありません(証明は必要ありません)。MCARがありそうもないというあなたの主張に異議を唱えるつもりはありません-それが個人的な意味で理解されている限り:あなたの経験では、あなたがよく知っている種類のデータでは、 MCARはまれです。あなたはその主張のより広い解釈をどのように正当化できるかわかりません。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.