データセットの平均を使用して相関を向上させることはできますか?


9

従属変数と独立変数を持つデータセットがあります。どちらも時系列ではありません。私は120の観察結果を持っています。相関係数は0.43

この計算の後、両方の変数の列を追加し、12観測ごとの平均を示します。その結果、2つの新しい列に108観測(ペア)が追加されます。これらの列の相関係数は0.77です

このようにして相関を改善したようです。これは許可されていますか?平均を使用して、独立変数の説明力を増やしましたか?


4
あなたがしたことは、平滑化フィルターを通してデータを実行することだけです。これは信号処理で常に行われ、完全に受け入れ可能であり、通常、データが使用可能になる前に必要です。これは、電子測定で常に発生するノイズを排除します。ただし、特定の問題が許容できるかどうかは、達成しようとしていることの詳細、およびおそらくデータの「ノイズ」と「品質」の程度に大きく依存します。「どちらも時系列ではない」と気づいたばかりなので、順序を変更すると結果が変わるため、何をしても意味がないと思います
Dunk

皆さん、ありがとうございました。私の従属変数は、賭けシステムの月次結果のシリーズです(これらの結果は関連していません)。独立変数は、私が作成したインジケーターの結果です。この指標は、特定の月におけるスポーツ試合のスコアの極端さに関するスコアを生成します(これらのスポーツ結果は関連していません)。相関係数が大幅に改善されたことに驚いたが、私がしたことは無意味だと思っていた。
user2165379

2
確かではありませんが、データを平均しても同様の結果が得られると思います。平均化により、外れ値の影響が減少すると思います。したがって、相関関係を改善する必要があります。とはいえ、一部のマギーオタクは、逆の影響を引き起こす適切に選択されたデータを思い付く可能性がありますが、そのようなデータが現実の世界で発生するとは思わないでしょう。
Dunk

このデータの目的を指定したかどうかはわかりませんでした。ただし、一般に、指定した対象者にデータを提示する場合は、データがどのように導出されたかを開示することをお勧めします。
Jon Milliken

3
表すことを意図した平均値の相関関係は何ですか?これは確かに、元の変数間の相関の妥当な推定ではありません。
Glen_b-2016

回答:


15

最初の2つのベクトルを見てみましょう

    2 6 2 6 2 6 2 6 2 6 2 6

そして2番目のベクトルは

   6 2 6 2 6 2 6 2 6 2 6 2

取得するピアソン相関の計算

cor(a,b)
[1] -1

ただし、値の連続するペアの平均を取ると、両方のベクトルが同一になります。同一のベクトルには相関1があります。

  4 4 4 4 4 4  

この単純な例は、メソッドの欠点を示しています。

編集:より一般的に説明すると、相関係数は次のように計算されます。

E[(XμX)(YμY)]σX σY

一部のと一部の平均化すると、との違い、およびと違いがます。Y X μ X Y μ YXYXμXYμY


1
マークアップをいくつか追加しましたが、および用語を明示的に定義できます。σμσ
Nick Cox

ありがとうございました。これは、私の結果が平均を使用することによって「膨らんでいる」ことを意味し、平均化せずに観測値を使用するほうが常に良いことを意味しますか?
user2165379

仮説検定では、平均ではなくデータ自体を確認する必要があります。他のドメインでは、記述統計が有用なツールになる場合があります。また、分位数(特に中央値)や、分散、歪度、尖度などのより高い(集中)モーメントなどの記述統計の他の測定値も確認する必要があります。しかし、私たちの場合、これは役に立ちません。ベクトルabは同じ変位値、同じモーメント、同じ集中モーメントを持っています。
フェルディ

1
平均化は、準ランダム分散を削除することで相関を増加させる傾向がありますが、十分に逆の平均化は相関をゼロに近づけることができます。
Nick Cox

ありがとうございました。それで、平均化が一般に相関を増加させる傾向がある場合、これは改善ではないことを意味しますか?それとも、準ランダム散乱が除去されたため、それは改善ですか?
user2165379 2016

10

平均化は魅力的または便利です。それはまた、最悪の場合は欺瞞の原因となる可能性があるため、平均化の明確な根拠がある場合でも注意深く踏み込んでください。

これは良い考えではない状況です。グループを注意深く定義することで、(通常)データを2つの変数でそれぞれ異なる2つの要約ポイントに減らすことができると考えてください。そして、マグニチュードとの完全な相関関係を実現します。おめでとうございます!ここでの改善は、手順の正当な独立した理由がない偽物です。危険に近づくためにこの極端なケースに近づく必要はありません。1

平均化が意味のある状況がいくつかあります。たとえば、季節変動がほとんどまたはまったく関心がない場合、年次値に平均化すると、それらの年次値に集中できる削減されたデータセットが作成されます。

さまざまな分野で、研究者は個人、郡、州、国の失業と犯罪の関係など、非常に異なるスケールの相関関係に関心を持つ可能性があります(最も意味のある用語に置き換えてください)。

興味、およびしばしば推論の問題の主要な原因は、さまざまなスケールまたはレベルで何が起こっているかを解釈することです。たとえば、地域の失業率と犯罪率の相関が高いからといって、必ずしも失業者が犯罪者である傾向が高いとは限りません。あなたはそれについて明確にするために個人に関するデータが必要です。データ提供は、おそらく経済性または機密性の問題として、最も興味のないスケールでのみデータを利用できるという点で、最大の扱いになりません。

多くの測定値はそもそも多くの場合、小さな時間間隔や小さなスペース間隔で平均化されることが多いので、データは多くの場合、平均して到着します。


3
平均化にはさまざまな方法がある可能性があることを強調して、@ Ferdiの答えを繰り返します。これは不確実性の追加の原因を作成します。小さなエリアをより大きなエリアに集約することは特に困難です。
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.