相関は、標準化された、すなわち共分散共分散、との標準偏差で割った及び。それを説明させてください。バツyバツy
大まかに言うと、統計は、モデルをデータに適合させ、モデルがそれらのデータポイントをどの程度正確に評価するか(結果=モデル+エラー)として要約できます。それを行う1つの方法は、モデルからの偏差の合計、または残差(res)を計算することです。
r e s = ∑ (x私− x¯)
多くの統計計算は、これに基づいています。相関係数(以下を参照)。
作成されたデータセットの例を次にR
示します(残差は赤い線で示され、その値はその横に追加されます):
X <- c(8,9,10,13,15)
Y <- c(5,4,4,6,8)
各データポイントを個別に見て、その値をモデルから減算することにより(たとえば、平均;この場合X=11
とY=5.4
)、モデルの精度を評価できます。モデルは実際の値を過小/過小評価していると言えます。ただし、モデルからのすべての偏差を合計すると、総誤差はゼロになる傾向があります。正の値(モデルは特定のデータポイントを過小評価します)と負の値(モデルは特定のデータを過大評価します)があるため、値は互いに相殺されますポイント)。この問題を解決するために、デビアンセの合計は二乗され、現在は二乗和()と呼ばれています。SS
SS= ∑ (x私− x¯)(x私− x¯)= ∑ (x私− x¯)2
平方和は、モデルからの偏差の尺度です(つまり、特定のデータセットに対する平均またはその他の適合線)。モデルからの逸脱を解釈する(および他のモデルと比較する)には、観測の数に依存するため、あまり役に立ちません。観測値が多いほど、平方和が高くなります。これは、平方和をで除算することで対処できます。結果のサンプル分散()は、平均値と観測値の間の「平均誤差」になります。したがって、モデルがデータにどの程度適合するか(つまり表現するか)の尺度になります。n − 1s2
s2= SSn − 1= ∑ (x私− x¯)(x私− x¯)n − 1= ∑ (x私− x¯)2n − 1
便宜上、サンプルの標準偏差と呼ばれるサンプルの分散の平方根を取得できます。
s = s2−−√= SSn − 1−−−√= ∑ (x私− x¯)2n − 1−−−−−−−√
現在、共分散は2つの変数が互いに関連しているかどうかを評価します。正の値は、1つの変数が平均から逸脱すると、他の変数が同じ方向に逸脱することを示します。
c o vx 、y= ∑ (x私− x¯)(y私− y¯)n − 1
標準化することにより、ピアソン相関係数である単位標準偏差ごとの共分散を表します。これにより、異なる単位で測定された変数を相互に比較できます。相関係数は、-1(完全な負の相関)から0(相関なし)および+1(完全な正の相関)の範囲の関係の強さの尺度です。r
r = c o vx 、ysバツsy= ∑ (x1− x¯)(y私− y¯)(n − 1 )sバツsy
この場合、ピアソン相関係数はであり、これは強い相関と見なすことができます(ただし、これは研究分野によっても相対的です)。これを確認するには、x軸とy軸に別のプロットを使用します。r = 0.87X
Y
簡単に言えば、はい、あなたの気持ちは正しいですが、私の答えがコンテキストを提供できることを望みます。