従属変数と独立変数を持つデータセットがあります。どちらも時系列ではありません。私は120の観察結果を持っています。相関係数は0.43
この計算の後、両方の変数の列を追加し、12観測ごとの平均を示します。その結果、2つの新しい列に108観測(ペア)が追加されます。これらの列の相関係数は0.77です
このようにして相関を改善したようです。これは許可されていますか?平均を使用して、独立変数の説明力を増やしましたか?
従属変数と独立変数を持つデータセットがあります。どちらも時系列ではありません。私は120の観察結果を持っています。相関係数は0.43
この計算の後、両方の変数の列を追加し、12観測ごとの平均を示します。その結果、2つの新しい列に108観測(ペア)が追加されます。これらの列の相関係数は0.77です
このようにして相関を改善したようです。これは許可されていますか?平均を使用して、独立変数の説明力を増やしましたか?
回答:
最初の2つのベクトルを見てみましょう
2 6 2 6 2 6 2 6 2 6 2 6
そして2番目のベクトルは
6 2 6 2 6 2 6 2 6 2 6 2
取得するピアソン相関の計算
cor(a,b)
[1] -1
ただし、値の連続するペアの平均を取ると、両方のベクトルが同一になります。同一のベクトルには相関1があります。
4 4 4 4 4 4
この単純な例は、メソッドの欠点を示しています。
編集:より一般的に説明すると、相関係数は次のように計算されます。
一部のと一部の平均化すると、との違い、およびと違いがます。Y X μ X Y μ Y
平均化は魅力的または便利です。それはまた、最悪の場合は欺瞞の原因となる可能性があるため、平均化の明確な根拠がある場合でも注意深く踏み込んでください。
これは良い考えではない状況です。グループを注意深く定義することで、(通常)データを2つの変数でそれぞれ異なる2つの要約ポイントに減らすことができると考えてください。そして、マグニチュードとの完全な相関関係を実現します。おめでとうございます!ここでの改善は、手順の正当な独立した理由がない偽物です。危険に近づくためにこの極端なケースに近づく必要はありません。
平均化が意味のある状況がいくつかあります。たとえば、季節変動がほとんどまたはまったく関心がない場合、年次値に平均化すると、それらの年次値に集中できる削減されたデータセットが作成されます。
さまざまな分野で、研究者は個人、郡、州、国の失業と犯罪の関係など、非常に異なるスケールの相関関係に関心を持つ可能性があります(最も意味のある用語に置き換えてください)。
興味、およびしばしば推論の問題の主要な原因は、さまざまなスケールまたはレベルで何が起こっているかを解釈することです。たとえば、地域の失業率と犯罪率の相関が高いからといって、必ずしも失業者が犯罪者である傾向が高いとは限りません。あなたはそれについて明確にするために個人に関するデータが必要です。データ提供は、おそらく経済性または機密性の問題として、最も興味のないスケールでのみデータを利用できるという点で、最大の扱いになりません。
多くの測定値はそもそも多くの場合、小さな時間間隔や小さなスペース間隔で平均化されることが多いので、データは多くの場合、平均して到着します。