相関係数の式を理解する方法は?


15

ピアソン相関式の理解を助けてくれる人はいますか?サンプルr =変数Xおよび標準スコアの積の平均Y

Xを標準化する必要がある理由Yを理解していますが、zスコアの両方の積を理解する方法はありますか?

この式は「製品モーメント相関係数」とも呼ばれますが、製品アクションの根拠は何ですか?質問を明確にしたかどうかはわかりませんが、式を直感的に覚えておきたいだけです。


11
「相関係数を調べる13の方法」(Rodgers&Nicewander 1988)の論文を読んでください。タイトルが示すように、相関係数の13の異なる直感的なビューについて説明します。だから、うまくいけば、少なくとも一つはクリックします:)
ハーフ渡す

10
13つの方法を見つけることができるここに
Dimitriy V. Masterov

4
(zスコアの積に関して)相関関係を理解する14番目の方法は、stats.stackexchange.com / questions / 18058 /…で示されているように、標準化された変数の共分散を理解することです
whuber

4
...そして、15番目の方法はstats.stackexchange.com/a/46508/919に示されている円を使用します:最小二乗近似は円の総面積を最小化します(ポイントが正確に並んでいない)、相関係数はそれらの平均面積です(両方の変数が標準化されている場合)。
whuber

回答:


14

コメントでは、相関係数を理解する15の方法が提案されました。


Rodgers and Nicewanderの記事(The American Statistician、1988年2月)で議論されている13の方法は、

  1. 生のスコアと平均の機能、

    r=(XiX¯)(YiY¯)(XiX¯)2(YiY¯)2.
  2. 標準化された共分散、

    r=sXY/(sXsY)

    ここで、は標本共分散であり、s Xおよびs Yは標本標準偏差です。sXYsXsY

  3. 回帰直線の標準化された勾配、

    r=bYXsXsY=bXYsYsX,

    ここで、およびbはX Yは、回帰直線の傾きです。bYXbXY

  4. 2つの回帰スロープの幾何平均、

    r=±bYXbXY.
  5. 2つの分散の比率の平方根(考慮される変動の割合)、

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. 標準化された変数の平均外積、

    r=zXzY/N.
  7. 2つの標準化された回帰直線間の角度の関数。XおよびXYの2つの回帰直線は、対角線に関して対称です。2本の線の間の角度をβとします。それからYXXYβ

    r=sec(β)±tan(β).
  8. 2つの可変ベクトル間の角度の関数、

    r=cos(α).
  9. 標準化されたスコア間の差の再スケーリングされた分散。まかせ標準化との間の差であるXzYzXXY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. 「バルーン」ルールから推定、

    r1(h/H)2

    H is the vertical range of the entire XY scatterplot and h is the range through the "center of the distribution on the X axis" (that is, through the point of means).

  11. In Relation to the Bivariate Ellipses of Isoconcentration,

    r=D2d2D2+d2

    where D and d are the major and minor axis lengths, respectively. r also equals the slope of the tangent line of an isocontour (in standardized coordinates) at the point the contour crosses the vertical axis.

  12. A Function of Test Statistics from Designed Experiments,

    r=tt2+n2

    where t is the test statistic in a two-independent sample t test for a designed experiment with two treatment conditions (coded as X=0,1) and n is the combined total number of observations in the two treatment groups.

  13. The Ratio of Two Means. Assume bivariate normality and standardize the variables. Select some arbitrarily large value Xc of X. Then

    r=E(Y|X>Xc)E(X|X>Xc).

(Most of this is verbatim, with very slight changes in some of the notation.)

Some other methods (perhaps original to this site) are

  • Via circles. r is the slope of the regression line in standardized coordinates. This line can be characterized in various ways, including geometric ones, such as minimizing the total area of circles drawn between the line and the data points in a scatterplot.

  • By coloring rectangles. Covariance can be assessed by coloring rectangles in a scatterplot (that is, by summing signed areas of rectangles). When the scatterplot is standardized, the net amount of color--the total signed error--is r.


2
Thank you, @Avraham, for trying to bring this unanswered thread to some closure by posting an answer here.
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.