ストリーミング配信された最も人気のある音楽アーティストに関する興味深いデータを、場所ごとに約200の議会地区に分割しています。音楽の好みについて人に投票して、その人が「民主党員のように聞く」のか、「共和党員のように聞く」のかを判断できるかどうかを見たい。(当然、これは簡単ですが、データには実際のエントロピーがあります!)
約100人のアーティストに関するデータに加えて、過去3回の選挙サイクルにおける各地区の共和党員と民主党員の平均投票率があります。そこで、各アーティストについて相関関係を調べ、どのアーティストが最も不釣り合いに聴かれているかを、民主党の投票シェアの関数として調べました。これらの相関関係は、どのアーティストでも約-0.3から0.3の範囲であり、中間には予測力がほとんどまたはまったくないものがたくさんあります。
2つの質問があります。1つ目は、地区ごとのストリームの総数は大きく異なります。現在、私は、たとえばビヨンセに属する地区ごとのすべてのストリームの割合を、民主党に投じられた票の割合と相関させています。しかし、ある地区の総河川は数百万、もう1つの地区は100,000の低さです。これを説明するために、どういうわけか相関に重みを付ける必要がありますか?
第二に、これらの相関関係を組み合わせて、ユーザーの政治に関する複合的な推測を行う方法に興味があります。絶対相関値が最も高い20人のアーティスト(正と負)をそれぞれの方向に10人ずつ取り、各アーティストがどれだけ好きかについてユーザーに投票するとします。したがって、私は各アーティストに賛成または反対票を投じ、さらに20の価値すべてに対する政治との相関関係を持っています。これらの相関を単一の推定値に結合する標準的な方法はありますか?(私はNYTimesの有名な方言クイズのようなものを考えています。そこでは25の質問に対する地域の確率をヒートマップに結合しました。しかしこの場合、音楽に対する民主党や共和党員の好みに関する単一の値が必要です。
ありがとうございました!