回答:
相関関係は、与えられた2つの変数間の線形関連性を測定するものであり、他の形式の関連性を検出する義務はありません。
そのため、これらの2つの変数は他のいくつかの非線形方法で関連付けられている可能性があり、相関は独立したケースと区別できません。
非常に教訓的、人工の非現実的な例として、一つは考えることができ ようにのために、および。それらは関連付けられているだけでなく、一方が他方の機能であることに注意してください。それにもかかわらず、それらの相関は相関が検出できる関連に直交しているため、それらの相関は0です。
「相関」という言葉は、仮定と意味が大きく異なる可能性があるという単純な理由から、一般的な厳密性の欠如があります。最も単純で、最もゆるく、最も一般的な使用法は、ランダム変数の静的ペアの間に曖昧な関連、関係、または独立性の欠如があることです。
ここで、参照されるデフォルトのメトリックは通常、ピアソン相関です。これは、2つの連続的に分布する変数間のペアワイズ線形関連の標準化された尺度です。ピアソンの最も一般的な誤用の 1つは、割合として報告することです。それは間違いなく割合ではありません。ピアソン相関、R、-1.0と+1.0 0手段なしとの間の範囲で線形会合。ピアソン相関をデフォルトとして使用することであまり広く認識されていない他の問題は、入力として間隔スケール変量を必要とする線形性の非常に厳密で非ロバストな尺度であるということです(Paul Embrechtsの優れた論文を参照してください)リスク管理の相関関係と依存関係:プロパティと落とし穴はこちら:https : //people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf)。
エンブレヒトは、これらの関係の基礎となる構造と幾何学的形状の仮定から始まる依存性について多くの誤った仮定があることに注意します。
これらの誤fallは、楕円世界の依存特性が非楕円世界でも成り立つという単純な仮定から生じます。
Embrechts は、財務およびリスク管理で使用される依存性メトリックのはるかに広いクラスとしてコピュラを指しますが、ピアソン相関はその1つにすぎません。
コロンビアの統計部門は、依存構造のより深い理解の開発に焦点を当てて2013-2014年度を費やしました。たとえば、線形、非線形、単調、ランク、パラメトリック、ノンパラメトリック、潜在的に非常に複雑でスケーリングに大きな違いがあります。この年は3日間のワークショップと会議で終わり、この分野のトップレベルの貢献者のほとんどが集まりました(http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2)。
これらの貢献者はReshefブラザーズ、2011年の今の有名な含ま科学論文大規模データで検出新規アソシエーションセットを http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdfこと広く批判されています(コロンビアイベントと同時に公開されている概要については、AndrewGelman.comを参照してください:http ://andrewgelman.com/2014/03/14/maximal-information-coefficient )。Reshefsは、プレゼンテーション(Columbia会議のWebサイトで入手可能)でこれらすべての批判に対処し、さらに非常に効率的なMICアルゴリズムに対処しました。
NSFで現在DCにいるGabor Szekelyを含む、他の多くの主要な統計学者がこのイベントで発表しました。セーケリーは、距離と部分距離の相関を開発しました。テンプル大学のディープ・ムホパダーイ氏が、ユージン・フランゼンhttp://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/で行った研究に基づいて、データ科学の統一アルゴリズムのフレームワークである統合統計アルゴリズムを発表しました。そして、他の多くの。私にとって興味深いテーマの1つは、Revolve Kernel Hilbert Space(RKHS)とカイ2乗の幅広い活用と使用でした。この会議で依存構造へのモーダルアプローチがあった場合、それはRKHSでした。
典型的なイントロ統計の教科書は、通常、循環または放物線の関係の視覚化の同じセットの提示に依存する、依存性の扱いにおいておざなりです。より洗練されたテキストは、類似の単純な統計的特性を持ちながら関係が大きく異なる4つの異なるデータセットの視覚化であるAnscombeのQuartetを掘り下げます:https : //en.wikipedia.org/wiki/Anscombe%27s_quartet
このワークショップの素晴らしい点の1つは、標準的な機能的な処理をはるかに超えた、視覚化および提示された多数の依存構造と関係でした。たとえば、Reshefsには、考えられる非線形性のサンプリングを表す多数のサムネイルグラフィックスがありました。Deep Mukhopadhayには、ヒマラヤの衛星ビューのように見える非常に複雑な関係の見事なビジュアルがありました。統計とデータサイエンスの教科書の著者は注意する必要があります。
これらの非常に複雑なペアワイズ依存構造の開発と可視化を伴うコロンビア会議から出て、私はこれらの非線形性と複雑性を捉える多変量統計モデルの能力に疑問を投げかけられました。
「相関」の正確な定義に依存しますが、縮退したケースを作成するのはそれほど難しくありません。「独立」とは、「線形相関」と同じくらい「予測力がまったくない」などのことです。
たとえば、線形相関は、のドメインが場合、への依存を示しません。
基本的に、YのXへの依存は、Yの値の分布がXの値の何らかの方法に依存することを意味します。 Y.
たとえば、Xを0または1にします。X= 0の場合、Yを0にします。X= 1の場合、Yを-1、0または1(同じ確率)にします。XとYは無相関です。平均して、YはXに依存しません。なぜなら、Xの値が何であれ、Yの平均は0だからです。しかし、明らかにYの値の分布はXの値に依存します。この場合、たとえば、Yの分散はX = 0のとき0、X = 1のとき> 0であるため、少なくとも分散への依存性があります。つまり、依存性があります。
したがって、線形相関は平均に対する依存のタイプ(線形依存)のみを示し、それは依存の特別な場合にすぎません。