非線形依存の測定


11

2つの確率変数間の共分散は、それらが互いに線形にどの程度密接に関連しているかの尺度を定義します。しかし、共同分布が円形の場合はどうでしょうか。確かに分布には構造があります。この構造はどのように抽出されますか?

回答:


8

この「pdf」の等高線図のように、「円形」とは、分布が円形領域に集中していることを理解しています。

円形分布の等高線図

そのような構造が存在する場合、それが部分的にであっても、それを識別して測定する自然な方法は、分布をその中心の周りで循環的に平均化することです。(これは、直感的には、可能な半径ごとに、中心から距離ある確率を全方向に均等に分散する必要があることを意味します。)変数をとしてと、中心は最初の瞬間。平均化を行うには、動径分布関数を定義すると便利ですR X Y μ Xμ Yrr(X,Y)(μX,μY)

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

これは、中心の距離と間にある確率の合計をキャプチャします。それをすべての方向に広げるには、をcdf確率変数とし、を無関係に一様確率変数とします。2変量確率変数は循環平均です。(これは、(a)構造によって正しい半径方向の分布、つまり、(b)中心からのすべての方向(0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ)可能性も同様です。)

この時点で多くの選択肢があります。残っているのは分布をの分布と比較することだけです。可能性には、距離カルバックライブラーダイバージェンスが含まれます(無数の関連する距離測定と共に、対称化されたダイバージェンス、ヘリンガー距離、相互情報など)。比較により、が「近い」場合は循環構造を持つ可能性があります。この場合、構造はプロパティから「抽出」できます。たとえば、平均値や中央値などのの中心位置の測定は、次の分布の「半径」を識別します。(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y)、およびの標準偏差(またはその他の尺度は、中心位置中心とした半径方向の「広がり」をます。F(X,Y)(μX,μY)

データ使用して分布からサンプリングする場合、真円度の妥当なテストは、中央の位置を通常の方法で(平均または中央値で)推定し、そこから各値その推定された中心を基準にして極座標変換します。半径の標準偏差(またはIQR)をそれらの平均(または中央値)と比較します。非循環分布の場合、比率は大きくなります。循環分布の場合は、比較的小さくなければなりません。(基礎となる分布について特定のモデルを念頭に置いている場合は、動径統計の標本分布を計算し、それを使用して有意性検定を構築できます。)別に、間隔の均一性について角度座標をテストします(xi,yi),1in(xi,yi)(ri,θi)[0,2π)。循環分布(および他のいくつかの分布)でもほぼ均一になります。不均一性は、真円度からの逸脱を示します。


1
ありがとうございました!完全に明確ではありませんが、これは私にいくつかの考えを与えます。これらの種類の配布が取り組まれている場所をいくつかお読みいただけますか?私はガウシアンと他の標準的なディストリビューションにのみさらされてきました。別の質問、これは原子などの動径分布関数と関係がありますか?
インフィニティ

1
@Infinity不明な部分を知らせて、修正できるようにします。そのような分布がどこで議論されているのかはわかりませんが、関連する分析は「循環分布」に関する文献にあります。根底にある数学的アイデアは、確かに原子軌道理論にやや微妙に関連しています。関連する概念には、球面座標でのシュレディンガー方程式の分離可能性、平均によるコンパクトリーグループのハールメジャーの構築、オーバーラップ積分による軌道の比較などがあります。
whuber

ありがとう。私は確率と統計に非常に慣れていないので、おそらくそれが原因でした。「中心を中心に円状に分布を平均化する」という意味がよくわかりません。すべての円を平均して、中心がで半径が1つの円だけになるようにすると思います線形回帰の直線近似のようなものです。あれは正しいですか?(μX,μY)ρ
インフィニティ

もう1つの疑問は、分布関数はディスクを表すように見えますが、図(および私が考えていたもの)はリングです。確率変数 は、極の形で平均円を表します。次に何が起こるかはっきりわかりません。いくつかの距離メトリックを使用して2つの分布を比較していることを理解していますが、なぜ特別であり、それが推論できないのにどのように役立ちますか。質問があまりにも愚かであるとすみません。F(ρ)(Ξ,H)(Ξ,H)
インフィニティ

1
@Infinity明確なコメントを追加しました。サークルを平均化するのではありません。むしろ、各円のすべての確率平均化(または「スミア」)するため、何から始めても、結局は私の写真(円形の輪郭)のように見えます。元の分布が真に循環的であった場合、この平均化はそれを変更しません。したがって、分布をその平均化されたバージョンと比較すると、そもそも循環からどれほど離れているかがわかります。
whuber

5

相互情報量は、共分散にやや類似した特性を持っています。共分散とは、独立変数の場合は0、線形従属変数の場合はゼロ以外の数値です。特に、2つの変数が同じ場合、共分散は分散(通常は正の数)と等しくなります。共分散の1つの問題は、依存関係が非線形であれば、2つの変数が独立していない場合でもゼロになる可能性があることです。

相互情報量(MI)は負でない数値です。2つの変数が統計的に独立している場合にのみゼロです。このプロパティは共分散のプロパティよりも一般的であり、非線形のものを含むすべての依存関係をカバーします。

2つの変数が同じ場合、MIは変数のエントロピーに等しくなります(ここでも、通常は正の数です)。変数が異なり、決定論的に関連していない場合、MIはエントロピーよりも小さくなります。この意味で、2つの変数のMIは0とH(エントロピー)の間で変化し、0は独立している場合のみ、Hは決定論的に依存している場合のみです。

共分散との1つの違いは、依存関係の「符号」が無視されることです。たとえば、ですが、です。Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)


4
このコンセプトが質問への回答を提供する方法について詳しく教えてください。
ワンストップ2011

3

科学からの次の記事をご覧ください-それはあなたの要点を正確に扱っています:

David N. Reshefらによる大規模なデータセット内の新しい関連付けの検出

要約から:

大規模なデータセット内の変数のペア間の興味深い関係を特定することは、ますます重要になります。ここでは、2変数関係の依存性の測定値を示します。最大情報係数(MIC)です。MICは、機能的関係と非関連性の両方の幅広い関連をキャプチャし、機能的関係については、回帰関数と比較したデータの決定係数(R ^ 2)にほぼ等しいスコアを提供します。MICは、関係を識別および分類するための最大情報ベースのノンパラメトリック探索(MINE)統計のより大きなクラスに属しています。MICとMINEをグローバルヘルス、遺伝子発現、メジャーリーグ野球、人間の腸内微生物叢のデータセットに適用し、既知の新しい関係を特定します。

ここに補足資料があります:http : //www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

著者は、RおよびPythonで使用できる新しい方法を組み込んだ無料のツールも提供しています。http//www.exploredata.net/

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.