回答:
この「pdf」の等高線図のように、「円形」とは、分布が円形領域に集中していることを理解しています。
そのような構造が存在する場合、それが部分的にであっても、それを識別して測定する自然な方法は、分布をその中心の周りで循環的に平均化することです。(これは、直感的には、可能な半径ごとに、中心から距離ある確率を全方向に均等に分散する必要があることを意味します。)変数をとしてと、中心は最初の瞬間。平均化を行うには、動径分布関数を定義すると便利ですR (X 、Y )(μ X、μ Y)
これは、中心の距離と間にある確率の合計をキャプチャします。それをすべての方向に広げるには、をcdf確率変数とし、を無関係に一様確率変数とします。2変量確率変数は循環平均です。(これは、(a)構造によって正しい半径方向の分布、つまり、(b)中心からのすべての方向()可能性も同様です。)
この時点で多くの選択肢があります。残っているのは分布をの分布と比較することだけです。可能性には、距離とカルバックライブラーダイバージェンスが含まれます(無数の関連する距離測定と共に、対称化されたダイバージェンス、ヘリンガー距離、相互情報など)。比較により、が「近い」場合は循環構造を持つ可能性があります。この場合、構造はプロパティから「抽出」できます。たとえば、平均値や中央値などのの中心位置の測定は、次の分布の「半径」を識別します。、およびの標準偏差(またはその他の尺度は、中心位置中心とした半径方向の「広がり」をます。
データ使用して分布からサンプリングする場合、真円度の妥当なテストは、中央の位置を通常の方法で(平均または中央値で)推定し、そこから各値その推定された中心を基準にして極座標変換します。半径の標準偏差(またはIQR)をそれらの平均(または中央値)と比較します。非循環分布の場合、比率は大きくなります。循環分布の場合は、比較的小さくなければなりません。(基礎となる分布について特定のモデルを念頭に置いている場合は、動径統計の標本分布を計算し、それを使用して有意性検定を構築できます。)別に、間隔の均一性について角度座標をテストします。循環分布(および他のいくつかの分布)でもほぼ均一になります。不均一性は、真円度からの逸脱を示します。
相互情報量は、共分散にやや類似した特性を持っています。共分散とは、独立変数の場合は0、線形従属変数の場合はゼロ以外の数値です。特に、2つの変数が同じ場合、共分散は分散(通常は正の数)と等しくなります。共分散の1つの問題は、依存関係が非線形であれば、2つの変数が独立していない場合でもゼロになる可能性があることです。
相互情報量(MI)は負でない数値です。2つの変数が統計的に独立している場合にのみゼロです。このプロパティは共分散のプロパティよりも一般的であり、非線形のものを含むすべての依存関係をカバーします。
2つの変数が同じ場合、MIは変数のエントロピーに等しくなります(ここでも、通常は正の数です)。変数が異なり、決定論的に関連していない場合、MIはエントロピーよりも小さくなります。この意味で、2つの変数のMIは0とH(エントロピー)の間で変化し、0は独立している場合のみ、Hは決定論的に依存している場合のみです。
共分散との1つの違いは、依存関係の「符号」が無視されることです。たとえば、ですが、です。
科学からの次の記事をご覧ください-それはあなたの要点を正確に扱っています:
David N. Reshefらによる大規模なデータセット内の新しい関連付けの検出
要約から:
大規模なデータセット内の変数のペア間の興味深い関係を特定することは、ますます重要になります。ここでは、2変数関係の依存性の測定値を示します。最大情報係数(MIC)です。MICは、機能的関係と非関連性の両方の幅広い関連をキャプチャし、機能的関係については、回帰関数と比較したデータの決定係数(R ^ 2)にほぼ等しいスコアを提供します。MICは、関係を識別および分類するための最大情報ベースのノンパラメトリック探索(MINE)統計のより大きなクラスに属しています。MICとMINEをグローバルヘルス、遺伝子発現、メジャーリーグ野球、人間の腸内微生物叢のデータセットに適用し、既知の新しい関係を特定します。
ここに補足資料があります:http : //www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
著者は、RおよびPythonで使用できる新しい方法を組み込んだ無料のツールも提供しています。http://www.exploredata.net/