2つの特性に既知の相関がある場合、ランダムなペアに対してそれらが「整列」する確率を予測できますか?


7

人のBMIと血圧など、特定の母集団で相関する2つの特性があるとします。そして、私がこの人口から選ばれたランダムに選択された人々のペアで、より高いBMIを持つ人がより高い血圧を持つ確率を推定したいとしましょう。ピアソン相関係数を知っている場合r(または同等のr ^ 2、BMIによって説明される血圧の分散の割合)、これを使用してその確率を取得できますか?そうでない場合、他の相関測定を使用して、またはそれらの間の関数関係についていくつかの簡略化仮定を使用して(たとえば、各個人の血圧が他のいくつかの独立変数とともにBMIの線形関数であると仮定して)、および/またはそれぞれの個人の分布(たとえば、BMIと血圧の両方が正常に分布していると仮定します)?


これがあなたが興味を持っているものであるなら、例えばケンドールのを使ってデータからこれを直接推定することができます。τ
dsaxton 2016年

回答:


4

いいえ -2つの特性間の相関関係(および線形回帰式)を知るだけでは、BMIが高くなると血圧が高くなる確率を予測するのに十分ではありません。

参照アンスコムの例迷ってあなたを導くことができ、相関に基づく確率予測を行うところ、同一の相関関係とフィット線形回帰ラインを持つ4つの非類似の分布を視覚的に例えばを確認します。

単純化の仮定、つまりBMIと血圧および正規分布の間の線形関係を作成すると、最小二乗方程式を使用して新しい測定の予測区間を構築できます。

ただし、実際のデータを操作する場合は、データの分布に関する想定を避けることをお勧めします。より良い代替手段は、ブートストラップを使用して累積分布関数を推定することです。


6

2つの特性に既知の相関がある場合、ランダムなペアに対してそれらが「整列」する確率を予測できますか?

それは、どの人口相関を見るかに依存します。

あなたが言及したピアソン相関()の場合、答えは「いいえ」です。(ロバートFの答えは正しいです)ρ

代わりに、連続的な2変量分布の母集団ケンドール相関(ケンドールのタウ、ここではと表記)がいる場合、答えは実際にはイエスです。τK

母集団ケンドール相関は、一致ペアの確率と不一致ペアの確率の差です。

τK=pCpD

(サンプルのケンドール相関は同様に、一致および不一致ペアのサンプル比率の違いです)。

連続二変量の集団であるため、あなたが知っていればあなたが計算できる:pC+pD=1τKpC

τK=pCpD =pC(1pC) =2pC1

したがって、、素晴らしいシンプルな結果です。pC=12(τK+1)

一方であなたが(少なくとも連続場合)を求める確率を決定し、関係と変数間の二変量の関係(すなわちの構造に依存コピュラ)。τKρτK


2変量正規性を仮定すると、と間の(非線形)接続をできます。実際、これはよく知られている結果です。我々は持っています:τKρ

τK=2πarcsin(ρ)

-Embrechtsらのセクション5.3.2を参照してください。(2005)[1]。その結果は、Meyer(2009)[2]などのさまざまな場所でも見られます。だからその場合

pC=arcsin(ρ)π+12.

(ただし、2変量正規性の仮定は、BMIと血圧については疑わしいと思われます)

とこの関係は、より一般的には楕円分布に当てはまります。たとえば、Lindskog、McNeil、&Schmock(2003)[3]を参照してください。ただし、繰り返しになりますが、BMIと血圧に関するこの仮定は疑わしいかもしれません。たとえば、実際には両方の測定値が右スキューである傾向があります。τKρ

[1] Embrechts、P.、Frey、R。、マクニール、AJ(2005)、
定量的リスク管理:概念、手法、ツール
金融のプリンストンシリーズ、プリンストン大学出版局

[2]マイヤーC.(2009)、
二変量正規コピュラ
arXiv:0912.2816v1 [math.PR] pdf (12月15日)

[3] Lindskog、F.、McNeil、AJ、Schmock、U.、(2003)、
"Kendall's tau for elliptical distributions"
in:Credit Risk; 測定、評価、管理、編集 G.ボル他、
経済への貢献、Physica-Verlag Heidelberg、pp.149–156。
(またはhttp://www.macs.hw.ac.uk/~mcneil/ftp/KendallsTau.pdfを参照してください


2
RobertFの回答が最初に来て、私が求めていることのほとんどに対処して以来、私はRobertFの回答を承認していますが、この追加情報に感謝します。私の素人の印象は、私が医学/心理学/社会学のような分野で見た経験的統計研究のほとんどがピアソンのrまたはr ^ 2を使用して相関を説明しているだけです-それが本当なら、ケンドールの測定がより頻繁に報告されないのはなぜだろうと思いますそれに加えて、結果を解釈する際にある程度の有用性があるように思われます(特に、ランダムなペアを選択するという考えは直観的であるため、専門家以外のユーザー向けに要約する場合)。
Hypnosifl 2016年

実際、それは熟考するのに優れた質問です。同様の解釈可能性と単純さの他の多くのノンパラメトリック量に関して、同様の質問をすることもできます。[少なくともケンドール相関は、理論と実践の両方で、コピュラを使った作業で広く使用されています。]
Glen_b -Reinstate Monica

0

測定する変数を増やすことをお勧めします。年齢、性別、場所などを数式で重み付けして、偽陰性の確率を下げます。ROC曲線を最大化します。異なる数十年にわたって与えられたデータセットで同じ相関関係を維持するモデルを見るのは興味深いでしょう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.