距離共分散が線形共分散より適切でない場合


21

私は(漠然と)ブラウン/距離共分散/相関について紹介されました。これは、依存関係をテストするときに、多くの非線形の状況で特に役立つようです。ただし、非線形/カオスデータには共分散/相関がよく使用されますが、あまり使用されていないようです。

距離の共分散にはいくつかの欠点があるかもしれないと考えています。それでは、それらは何であり、なぜ誰もが常に距離共分散を使用しないのですか?


6
参考のために、私が作成した距離相関バージョンWikipediaの相関グラフを
naught101

あなたはdcovを使用して非線形時系列を比較し、それらを重みと組み合わせると読みました。距離相関?私はそれをしようとしていますが、距離相関式に重みベクトルを導入することが正しい方法であるかどうかはわかりません。
user3757561 14年

いいえ、@ user3757561、申し訳ありませんが、相関の代わりに距離相関を試し、それに基づいて重みを作成していました。しかし、私は...とにかくそれを使用して終了しませんでした
naught101

回答:


18

下記の参考文献を読んで得た印象に基づいて、距離共分散に関するいくつかの意見を集めようとしました。しかし、私は自分自身をこのトピックの専門家とは考えていません。コメント、修正、提案などを歓迎します。

元の質問で要求されたように、発言は潜在的な欠点に向かって(強く)偏っている

私が見るように、潜在的な欠点は次のとおりです。

  1. 方法論は新しい。私の推測では、これが現時点での人気の欠如に関する最大の要因であると考えられます。距離共分散の概要を説明する論文は、2000年代半ばに始まり、現在まで進行しています。上記で引用した論文は、最も注目された論文であり(誇大広告?)、3年足らずです。対照的に、相関および相関のような測定に関する理論と結果には、すでに1世紀以上の研究があります。
  2. 基本概念はより挑戦的です。運用レベルでのピアソンの製品とモーメントの相関関係は、微積分学の背景なしで大学の新入生に簡単に説明できます。単純な「アルゴリズム」の視点をレイアウトでき、幾何学的な直感を簡単に説明できます。対照的に、距離共分散の場合、ペアワイズのユークリッド距離の積の合計の概念でさえかなり難しく、確率過程に関する共分散の概念は、そのような聴衆に合理的に説明できるものをはるかに超えます。
  3. 計算量が多くなります。検定統計量を計算するための基本的なアルゴリズムは、標準相関メトリックのとは対照的に、サンプルサイズでです。小さいサンプルサイズの場合、これは大したことではありませんが、大きなサンプルの場合はより重要になります。On2On
  4. 検定統計量は、漸近的であっても、無料ではありません。すべての選択肢に対して一貫性のある検定統計量の場合、分布は(少なくとも漸近的には)帰無仮説の下にあると基礎となる分布から独立している可能性があります。これは、標本サイズが無限大になる傾向がある場合でも、nullの下の分布がと基礎となる分布に依存するため、距離共分散には当てはまりません。ある分布が均一で囲まれていることは確かの計算を可能に分布、保守的な臨界値。バツYバツYχ12
  5. 距離相関は、 1対1変換です二変量正常の場合|ρ|。これは実際には欠点ではなく、強みと見なされることさえあります。ただし、データの2変量正規近似を受け入れる場合(実際には非常に一般的です)、標準手順の代わりに距離相関を使用しても、ほとんど得られません。
  6. 未知の電力特性。すべての選択肢に対して一貫性を保つことは、距離の共分散がいくつかの選択肢に対して非常に低いパワーを持たなければならないことを本質的に保証します。多くの場合、関心のある特定の選択肢に対する追加の力を得るために、一般性をあきらめます。元の論文は、標準的な相関メトリックスに比べて高いパワーを主張する例を示していますが、上記(1.)に戻って、代替手段に対する動作はまだよく理解されていないと思います。

繰り返しになりますが、この答えはおそらくかなり否定的です。しかし、それは意図ではありません。距離共分散に関連する非常に美しく興味深いアイデアがいくつかあり、その相対的な新規性は、それをより完全に理解するための研究の道を開きます。

参照

  1. GJ Szekely and ML Rizzo(2009)、Brownian distance covarianceAnn。適用 統計学者。、vol。3、いいえ。4、1236–1265。
  2. GJ Szekely、ML Rizzo and NK Bakirov(2007)、距離の相関による独立性の測定とテストAnn。統計学者。、vol。35、2769–2794。
  3. R.リヨン(2012)、距離空間における距離共分散アン。プロバブ。(現れる)。

素晴らしい答え、ありがとう。それのいくつかは私の頭の上に少しありますが、私はそれを自分で改善できると思います:)
naught101

1
「Brownian Distance Covariance」Statistics Journal Club、36-825 Benjamin Cowley and Giuseppe Vinci 2014年10月27日stat.cmu.edu/~ryantibs/journalclub/dcov.pdf
Felipe G. Nievinski

2
両方のランダム変数が単変量の場合、距離相関は時間で計算できます。たとえば、tandfonline.com / doi / abs / 10.1080 / 00401706.2015.1054435を参照してください。Onログn
アリンチャウドゥーリ

3

何かが足りないかもしれませんが、2つの変数間の非線形依存性を定量化するだけでは、大きな成果は得られないようです。関係の形はわかりません。ある変数を他の変数から予測する手段を提供しません。同様に、探索的データ分析を行う場合、データが直線、2次、3次などで最適にモデル化されているかどうかを確認するための最初のステップとして、レスカーブ(局所的に重み付けされた散布図スムーザー)を使用することがあります。それ自体は非常に有用な予測ツールではありません。これは、2変量形状を記述するための実行可能な方程式を見つける方法の最初の近似にすぎません。その方程式は、黄土(または距離共分散の結果)とは異なり、確認モデルの基礎を形成できます。


私の目的のために、それは見返りがあります。何かを予測するためにdcov()を使用するのではなく、アンサンブル内の複数の非線形時系列を比較し、それらを依存関係に基づいて重みと組み合わせます。この状況では、dcov()には潜在的に大きな利点があります。
-naught101

@ naught101あなたはいくつかの鉱石情報を入れることができます。これは、非線形依存性に基づいた重み付けの点で興味深いものです。時系列をグループに分類しますか?また、このシナリオで高い重みと低い重みは何を強調していますか?

2
@PraneethVepakomma:stats.stackexchange.com/questions/562/で私の答えをチェックしてください
naught101

1
あなたが依存性(例えば、多項式)の一般的な形式を知っている場合も、あなたは、例えば、参照、決意の係数を使用して依存性の強さを定量化すること多項式回帰のためのR2調整のコンピューティング
フェリペ・G. Nievinski
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.