重み付き相関などですか?


14

ストリーミング配信された最も人気のある音楽アーティストに関する興味深いデータを、場所ごとに約200の議会地区に分割しています。音楽の好みについて人に投票して、その人が「民主党員のように聞く」のか、「共和党員のように聞く」のかを判断できるかどうかを見たい。(当然、これは簡単ですが、データには実際のエントロピーがあります!)

約100人のアーティストに関するデータに加えて、過去3回の選挙サイクルにおける各地区の共和党員と民主党員の平均投票率があります。そこで、各アーティストについて相関関係を調べ、どのアーティストが最も不釣り合いに聴かれているかを、民主党の投票シェアの関数として調べました。これらの相関関係は、どのアーティストでも約-0.3から0.3の範囲であり、中間には予測力がほとんどまたはまったくないものがたくさんあります。

2つの質問があります。1つ目は、地区ごとのストリームの総数は大きく異なります。現在、私は、たとえばビヨンセに属する地区ごとのすべてのストリームの割合を、民主党に投じられた票の割合と相関させています。しかし、ある地区の総河川は数百万、もう1つの地区は100,000の低さです。これを説明するために、どういうわけか相関に重みを付ける必要がありますか?

第二に、これらの相関関係を組み合わせて、ユーザーの政治に関する複合的な推測を行う方法に興味があります。絶対相関値が最も高い20人のアーティスト(正と負)をそれぞれの方向に10人ずつ取り、各アーティストがどれだけ好きかについてユーザーに投票するとします。したがって、私は各アーティストに賛成または反対票を投じ、さらに20の価値すべてに対する政治との相関関係を持っています。これらの相関を単一の推定値に結合する標準的な方法はありますか?(私はNYTimesの有名な方言クイズのようなものを考えています。そこでは25の質問に対する地域の確率をヒートマップに結合しました。しかしこの場合、音楽に対する民主党や共和党員の好みに関する単一の値が必要です。

ありがとうございました!

回答:


25

加重ピアソン相関のための式を簡単に見つけることができるウェブ上でStackOverflowの、およびウィキペディアといくつかのRパッケージに実装されている例えばサイケ、または重みをとPythonの中statsmodelsパッケージ。通常の相関のように計算されますが、加重平均を使用して、

mバツ=wバツw    mY=wyw

重み付けされた分散

sバツ=wバツmバツ2w    sY=wymY2w

および加重共分散

sバツY=wバツmバツymYw

これらすべてを使用すると、加重相関を簡単に計算できます

ρバツY=sバツYsバツsY

あなたの2番目の質問については、私が理解しているように、あなたは政治的指向と20人のアーティストとユーザーの好みの間の相関関係に関するデータを持ち、彼/彼女の好みに関するバイナリ答えを持っているので、それの何らかの総合的な尺度を取得したいと思います。

z

ρ¯=タン1j=1KタンρjK

基本的に、相関係数のタンジェントをとると、極値が「平坦化」され(以下を参照)、最終推定値への影響が小さくなり、分布が正規に近くなります。この手順は、Bushman and Wang(1995)およびCorey、Dunlap and Burke(1998)によっても説明されました。

ここに画像の説明を入力してください

r=corバツYr=corバツY=corバツY

rjjバツjjバツj=1バツj=1

r¯=タン1j=1KタンrjバツjK

11

だが...

このすべてが、基本的に重回帰の問題である何かに対するやり過ぎだと思いませんか?代わりに、すべての重み付けと平均化は、重みがサブサンプルのサイズに基づいている場合に、単純に重み付き重回帰(いずれかの方向でバイナリプリファレンスまたはオフオフプリファレンスを予測する場合は線形またはロジスティック)を使用できます。各アーティストの音楽的好みを予測子として使用します。最後に、ユーザーの好みを使用して予測を行います。このアプローチはよりシンプルで、統計的にエレガントです。また、相対的に適用されますAB


ブッシュマン、BJ、およびワン、MC(1995)。サンプル相関係数と投票数を組み合わせて、母集団相関係数の推定値と信頼区間を取得する手順。Psychological Bulletin、117(3)、530。

コーリー、DM、ダンラップ、WP、およびバーク、MJ(1998)。平均化相関:ピアソンrsとフィッシャーのz変換の組み合わせにおける期待値とバイアス、一般心理学ジャーナル、125(3)、245-261。


ありがとうございました!これは非常に役立ちます。本日中に入手可能になると、賞金が授与されます。
クリスウィルソン

バツy

1
@Kagaratschそのような式を見たことがありません。これは質問するのに適した質問です。
ティム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.