非線形相関を検出するためのMICアルゴリズムは直感的に説明できますか?


20

最近では、2つの記事を読みました。1は相関の履歴に関するもので、2つ目は最大情報係数(MIC)と呼ばれる新しい方法に関するものです。変数間の非線形相関を推定するMICメソッドを理解することに関して、あなたの助けが必要です。

さらに、Rでの使用方法については、著者のWebサイト(ダウンロード)で確認できます。

これがこの方法を議論し理解するための良いプラットフォームになることを願っています。この方法の背後にある直感と、著者が述べたようにどのように拡張できるかを議論することへの私の関心。

" ... MIC(X、Y)からMIC(X、Y | Z)への拡張が必要です。MICの安定した推定値を得るために必要なデータの量、外れ値に対する影響の程度、3 -またはそれは欠場する高次元の関係、そしてより多くのMICは大きな前進ですが、取るために、より多くのステップがあります。


質問は興味深いものですが、答えられないと思います。もっと具体的にしてください。
mpiktas

3
Scienceの記事はオープンアクセスではないという事実により、議論は妨げられます。
イタマル

7
ここに著者の一人によって解放された論文のコピーがあります。

10
要するに、MICは「すべての散布図と最大の白いエリアをプロットする」という古いアイデアの発掘であるため、主に誤検知を引き起こし、非現実的な複雑さを持ちます。(作成者はテストのみのランダムに選択されたペアのヒューリスティックの背後に隠れています)および設計上、3つ以上の変数の相互作用がすべて欠落しています。O(M2)

4
MICの技術的な詳細については、サポートオンライン資料は記事自体よりも有益です。
解像度

回答:


22

これが、統計ピアレビューが不明な非統計ジャーナルに掲載されたことを伝えていないのですか?この問題は、1948年のHoeffding(Annals of Mathematical Statistics 19:546)によって解決され、ビニングや複数のステップを必要としない簡単なアルゴリズムを開発しました。Hoeffdingの研究は、Scienceの記事でも言及されていませんでした。これは長年パッケージのR hoeffd関数に含まれていましたHmisc。次に例を示します(example(hoeffd)Rで入力)。

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdHoeffdingのメソッドのかなり効率的なFortran実装を使用します。彼のテストの基本的な考え方は、XとYのジョイントランクと、XのマージナルランクとYのマージナルランクの積の違いを考慮して、適切にスケーリングすることです。

更新

D

HmiscD|F(x,y)G(x)H(y)|D


6
(+1)Hoeffdingの論文はオンラインで入手できます。
解像度

1
素敵な発見。Hoeffdingのパフォーマンスを彼らのパフォーマンスと比較するScienceに短いメモをする価値があるかもしれません。50年代からの多くの優れた研究(多くの分野)が長年にわたって忘れられていたことは残念です。
イタマル

6

MI=H(X)+H(Y)H(X,Y)
H(X)=ip(zi)logp(zi)
H(X,Y)=i,jp(xi,yj)logp(xi,yj)

著者の主なアイデアは、データを多くの異なる2次元グリッドに離散化し、各グリッド上の2つの変数の相互情報を表す正規化されたスコアを計算することです。スコアは、異なるグリッド間の公正な比較を確保するために正規化され、0(無相関)から1(高相関)の間で変化します。

R2


3

MICの考え方、特にこの記事をより明確に説明する2つの良い記事を見つけました。ここで2番目

これらの読み取りから理解したように、グリッドのさまざまな組み合わせを調べることにより、2つの変数間のさまざまな複雑さおよび関係のスケールにズームインすることができます。これらのグリッドは、2次元空間をセルに分割するために使用されます。セルがどのようにスペースを分割するかに関する最も多くの情報を保持するグリッドを選択することにより、MICを選択します。

彼が「plot-all-scatter-plots-and-peak-those-with ---------------------------------------------------------->の拡張、およびO(M2)の非現実的な複雑さを拡張できるかどうか、@ mbqに尋ねたいと思います。


4
ビニングを使用する統計的方法が心配です。
フランクハレル

@FrankHarrellあなたは、ビニングが悪い理由を詳述する参照またはいくつかの直観を提供できますか?直観的には、ビニングのために基本的に情報を破棄していることがわかりますが、他にも理由がありますか?
キランK.

どこから始めればよいかを知るにはあまりにも多くの参照があります。ビニングに基づいた統計的方法は、最終的に存続しません。Ar意性は多くの問題の1つです。
フランクハレル

@FrankHarrellコメントを感謝します。私が参照を求めた理由は、私は博士課程の学生であり、現在、依存関係と多変量依存関係の概念を研究しており、これらの論文を読んで、将来自分の作品で引用したいと思っています。あなたが1つまたは2つの有名なものに言及することができれば、私はあなたが言及している残りのものを見つけることができると確信しています。また、良いものが見つかったら、ここで掘り下げて参照を投稿します。
キランK.

始まるciteulike.org/user/harrelfe/article/13265458でdichotomizationに関するその他の情報を参照してください、その後biostat.mc.vanderbilt.edu/CatContinuous。ビニングを必要としない一般的な依存度測定については、citeulike.org / user / harrelfe / article / 13264312
フランクハレル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.