2つの連続変数が独立していることをテストするにはどうすればよいですか?


48

XYの共同分布からのサンプルがあるとします。XY独立しているという仮説をどのように検証ますか?(Xn,Yn),n=1..NXYXY

XYの結合または周辺分布の法則については仮定されていませんY(すべての結合の正規性の中で、独立性は相関が0であるため同一です0

XYの間の可能な関係の性質については想定されていませんY。非線形である可能性があるため、変数は無相関r=0)ですが、高度に共依存I=H)です。

私は2つのアプローチを見ることができます:

  1. 両方の変数をビンし、フィッシャーの正確検定またはG 検定を使用します。

    • プロ:定評のある統計検定を使用する
    • 短所:ビニングに依存
  2. 推定依存性のと:(これはの独立のためにととそれらは互いに完全に決定)。XYI(X;Y)H(X,Y)0XY1

    • プロ:明確な理論的意味を持つ数字を生成します
    • Con:おおよそのエントロピー計算に依存します(つまり、再びビニングします)

これらのアプローチは理にかなっていますか?

人々が使用する他の方法は何ですか?



@RayKoopman:ありがとう、距離の相関による依存性の測定とテストを読んでいます!
sds

2
連続変数について話すとき、依存関係は意味がありません。連続変数には無限のエントロピーがあります。ここでは、微分エントロピーは相互情報に匹敵しないため、微分エントロピーの代わりにを使用することはできません。相互情報には「絶対」の意味がありますが、微分エントロピーは、変数および測定に使用する単位に応じて、正、ゼロ、または負になる場合があります。I(X;Y)/H(X;Y)HXY
フォニーニ

@fonini:もちろん、ビン変数について話していました。あなたのコメントをありがとう。
sds

回答:


27

これは一般的に非常に難しい問題ですが、変数は明らかに1dしかないので役立ちます。もちろん、最初のステップ(可能な場合)は、データをプロットし、何かが飛び出すかどうかを確認することです。あなたは2Dにいるので、これは簡単なはずです。

またはさらに一般的な設定で機能するいくつかのアプローチを次に示します。Rn

  • あなたが述べたように、エントロピーを介して相互情報を推定します。これが最良の選択肢かもしれません。最近傍ベースの推定量は、低次元では問題なく、2次元ではヒストグラムでさえひどくありません。推定誤差が心配な場合、この推定器は単純であり、有限サンプル境界を提供します(ほとんどの場合、漸近特性のみを証明します)。

    スリチャラン、ライヒ、ヒーロー。自信を持ったエントロピー汎関数の経験的推定。arXiv:1012.4188 [math.ST]

    あるいは、相互情報のための同様の直接推定量があります。例えば

    パール、ポチョス、スヴェペサリ。一般化された最近傍グラフ、NIPS 2010に基づくRényiエントロピーと相互情報の推定

  • Hilbert-Schmidt独立基準:カーネル(KDEではなくRKHSの意味)ベースのアプローチ。

    Gretton、Bousqet、Smola、Schölkopf、Hilbert-Schmidt Normsによる統計的独立性の測定、アルゴリズム学習理論2005年。

  • Schweizer-Wolffアプローチ:コピュラ変換に基づいているため、単調増加変換には不変です。私はこれにあまり詳しくありませんが、計算的には単純ですが、強力ではないかもしれません。

    Schweizer and Wolff、On Nonparametric Measures of Dependence for Random Variables、Annals of Statistics 1981。


これらのアプローチが距離相関とどのように比較されるか簡単に言及できますか?私はDCを使用して大規模なデータセット(ふつう、私にとっては大規模なもの)をふるいにかけているので、あなたが持っているコメントに興味があります。ありがとう!
pteetor

1
@pteetor興味深いことに、これまで距離相関に出くわしていませんでした。計算的には、完全な距離行列が必要なため、大きなサンプルサイズのエントロピー推定アプローチよりも高価に見えます(エントロピー推定器の場合、インデックスを使用して最初のk近傍のみを取得できます)。それは、統計的パワー/などの面での比較については考えていない
ドゥーガル

4
後の読者向け:2013年の論文Sejdinovic et al。による仮説検定における距離ベースおよびRKHSベースの統計の同等性。距離相関と他のエネルギー距離は、HSICの背後にある基礎となるMMDの特定のインスタンスであることを示し、テスト電力などの観点から関係を説明します。
ドゥーガル

19

Hoeffdingは、ジョイントランクを使用してをテストする2つの連続変数の独立性に関する一般的なノンパラメトリックテストを開発しました。この1948テストは、R パッケージの機能に実装されています。H0:H(x,y)=F(x)G(y)Hmischoeffd


6

この論文はどうですか:

http://arxiv.org/pdf/0803.4101.pdf

「距離の相関による依存性の測定とテスト」。セーケリーとバキロフにはいつも面白いものがあります。

実装用のmatlabコードがあります。

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

独立性に関する他の(実装が簡単な)テストを見つけた場合はお知らせください。


2
サイト@JLpへようこそ。質疑応答の形式で高品質の統計情報の永続的なリポジトリを構築したいと考えています。そのため、私たちが心配することの1つはlinkrotです。そのことを念頭に置いて、リンクが機能しなくなった場合に備えて、その論文の内容の要約/質問への回答方法を教えてください。また、このスレッドの今後の読者が、論文を読む時間を費やすかどうかを判断するのにも役立ちます。
GUNG -復活モニカ

@gung:これは同じであるエネルギー
SDS

5

距離共分散とカーネルテスト(Hilbert-Schmidt独立基準に基づく)の間のリンクは、論文で与えられています。

Sejdinovic、D.、Sriperumbudur、B.、Gretton、A。、およびFukumizu、K.、仮説検定における距離ベースおよびRKHSベースの統計の同等性、統計学、41(5)、pp.2263-2702、 2013

特定のカーネルファミリでは、距離共分散がカーネル統計の特殊なケースであることが示されています。

相互情報の使用を意図している場合、MIのビン分けされた推定に基づくテストは次のとおりです。

Gretton、A. and Gyorfi、L.、Consistent Nonparametric Tests of Independence、Journal of Machine Learning Research、11、pp.1391--1423、2010。

最高のテスト能力を得ることに興味があるなら、ビニングや相互情報よりもカーネルテストを使用した方が良いでしょう。

つまり、変数が単変量である場合、Hoeffdingのような古典的なノンパラメトリック独立性テストはおそらく問題ありません。


4

統計ではめったに(決して)、サンプル統計=ポイント値であることを証明できません。ポイント値に対してテストし、それらを除外するか、除外しないかを選択できます。しかし、統計の性質は、変数データを調べることです。常に分散が存在するため、何かが正確に関連していないこと、通常、ガウスなどを知る方法は必ずしもありません。値の範囲のみを知ることができます。もっともらしい値の範囲から値が除外されているかどうかを知ることができます。たとえば、関係を除外せず、関係の大きさの値の範囲を指定するのは簡単です。

したがって、何の関係も示さないようにしようとすると、本質的にポイント値はrelationship = 0成功に達しません。およそ0として受け入れられる関係の測定範囲がある場合は、テストを考案することができます。

あなたがその制限を受け入れることができると仮定すると、あなたが支援しようとしている人々にとって、より低い曲線の散布図を提供するのに役立つでしょう。Rソリューションを探しているので、試してください:

scatter.smooth(x, y)

これまでに与えられた限られた情報に基づいて、非独立性をテストするためには、一般化された加法モデルが最善であると思います。予測値の周りのCIでそれをプロットすると、独立の信念に関するステートメントを作成できる場合があります。gammgcvパッケージを確認してください。ヘルプは非常に優れており、CIに関するサポートがここにあります。


2

面白いかもしれません...

ガルシア、JE; Gonzalez-Lopez、VA(2014)最長増加サブシーケンスに基づく連続ランダム変数の独立性テスト。Journal of Multivariate Analysis、v。127 p。126-146。

http://www.sciencedirect.com/science/article/pii/S0047259X14000335


2
この投稿は、特にペイウォールの背後にあるため、記事の内容に関する詳細から恩恵を受けるでしょう。
エリック


-1

Rを使用する場合cor.test、statsパッケージの関数(Rのデフォルト)で次のことができます。

ペアのサンプル間の関連付け/相関のテスト。ピアソンの積率相関係数、ケンドールのタウまたはスピアマンのローのいずれかを使用して、ペアのサンプル間の関連性をテストします。

cor.test(x, y)

これは、明示的に質問のトピックである非線形関係を逃します。
sds
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.