このBBCチャート(教育と結果の間のブレグジットの相関関係)はどのように描画する必要がありますか?


8

BBCはより多くのBrexit国民投票データを分析しました。彼らの記事の最初のチャートが私の目を引いた:

ここに画像の説明を入力してください

x軸を50%に分割するのは奇妙に思えました。確かに、これはデータの中央値で分割されるべきでしたか?(または、データが正常に分布していた場合の平均ですが、目を細めると、ここではそうではありません。)

(彼らはデータを公表していませんが、簡単なグーグルは卒業生が成人人口の約-25%であることを示唆しており、それはチャートの目を見張るようなものと一致するので、私はそれに進みます。)

しかし、それによって私はこのチャートをできるだけ客観的に描く方法を考えました。X軸を直線に保ち、右側の2つのボックスの幅を3倍にするほうがよいでしょうか。または、ボックスをすべて同じサイズに保ち、x軸を押しつぶして伸ばし、すべてのNピクセルスパンが同じ数のデータポイントをカバーするようにしますか?または、他の何か?


5
ここには問題はありません。Leave> Remainは、結果を検討するのに非常に適切です。多くの卒業生が理解できます。後者に対して別のしきい値が選択されている場合、他の一部の読者は混乱している可能性があります。1つの回答とは異なり、1つの象限にデータポイントが表示されないのは、そこに属するデータポイントがないためです。そこで何が誤解を招くのですか?すべてのシェーディングが気を散らすことは議論の余地がありますが、解釈を導く試みがあります。
Nick Cox

4
統計的に気にかけられている人は非常に驚かれるかもしれませんが、散布図はデータジャーナリズムや関連分野では一般の視聴者には難しすぎると広く見なされています。
Nick Cox

2
いくつかの人が指摘しているように、このプロットは一般によく行われています。すぐに注目される唯一の真の批判は、中央の点の過剰なプロットです。そのため、そこでの点の数を評価することが困難になり、プロットが実際よりも少し役に立たなくなります。
whuber

回答:


3

同様のデータのこのFTバージョンは、データを公正に提示する方法についての適切な回答として役立つと思います。

ここに画像の説明を入力してください

0-100スケールの絶対値ではなく、ズームインして変更に焦点を合わせます。ラインは、すべての打ちすぎのためにポイントだけで評価するのが難しいパターンを確認するのに役立ちます。(元の1070ワードはいくつわかりますか?)


1
ありがとう。私はこのアイデアが好きです。チャートの一部のほとんどのアイテムに共通点がある場合(ここでは地理的領域)、その機能を持つすべてのアイテムを強調表示します。(この場合、トレンドラインも非常にうまく機能します。)
Darren Cook

10

象限をピンクに着色することは主に表面的なものであることに同意しますが、全体として、これは明確で有益なプロットであると考えています。メッセージはすぐに明らかになり、誤解を招くものではありません。BBCは実際のデータポイントをプロットしています。彼らはx軸またはy軸を操作していません。プロットの注釈は正確で、誇張されていません。彼らは偽のトレンドラインやその他の不必要な解釈を加えていません。メディアに掲載されているほとんどのデータの数値と比較すると、このプロットは優れています。これは、データにそれ自体を説明させる良い例です。要するに、あなたはそれを考えすぎていると思います。プロットを改善する方法がいくつか見つかることは間違いありませんが、通常はシンプルな方法が最適です。


4
同意してから+1。中央値または平均値での分割は50%の場合よりも恣意的ではなく、表示したいものに正確に依存することを付け加えます。
Tim

4

私は、このグラフが、高休暇票%、卒業生の高%として明確説明されている象限にデータポイントがないことを示すという意味で誤解を招くものであることに同意します。高低は、実際のデータではなく、軸の範囲に関連します。人口が100%の大学で教育を受けたワードを持つことは理論的には可能ですが、そのようなワードは存在しません。誤解を招くグラフを作成するためにデータポイントを作成する必要はありません。誇張された変更を示す破線の軸は、この軸とあまり似ていない例です。

このデータを視覚化するより客観的な方法は、データの最大/最小で散布図の軸の制限を設定してから、グラフを等しい面積の四分円に分割することです。

四分円の等しい領域に行く理由は、四分円が変数間の同等の線形関係を示すためです。象限のカテゴリ別の説明である「高」と「低」は同等に扱われるため、領域も同様に扱われます。

データを定量的に説明する別の方法として象限を使用する場合は、R:100の例を使用したデータの視覚化(Googleブックスでプレビュー可能、p283,286)に示すように、各変数の平均で象限境界を設定できます。

別の分析レイヤーを散布図の視覚化に追加するには、ドットの色とサイズを使用できます。たとえば、色を使用して大学の町を他の町と区別したり、投票者の投票率をグラデーションで表示したり、それらの区の総選挙結果を強調したりできます。非常に多くのデータポイントでサイズが効果的かどうかはわかりませんが、65以上などのさまざまな母集団のバンドと、それらがデータ内でどのように表されるかを調査することができます。

私の心には、このグラフを見るときに注意する価値のある2つの重要な警告があります。1つ目は、国民投票で投票したかどうかに関係なく、すべての卒業生を数えること、2つ目は、EUパスポートを持つ居住者の卒業生が含まれることです。国民投票に投票できませんでした(ソースデータが国勢調査ベースであると想定)。


ありがとう。ここでmaxとminを使用することはそれほど遠くありませんが、長い分布、または1つの迷惑な外れ値(たとえば、大学の町に80%以上に達する病棟があるかもしれないと想像できます)でも、歪む可能性があります。それでも、常に最小/最大、次に偶数領域の象限を使用しますか?
ダレン・クック

この場合、なぜ領域を使用するのかを説明するために、回答を編集しました。分布が長い場合は、象限を使用して結果をこのように分類することはおそらく適切ではありません。
gherka 2017

2

私は同意します、非常に誤解を招きます。一緒に色付きの背景を削除します。

あなたがそれを着色することを主張するならば、おそらく人口密度に対応する勾配?これは、より多くの病棟が「教育済みと休暇」のカテゴリに分類されると、背景色が暗くなることを意味します

確かに傾向があります、私は誰もがそれに対して異議を唱えるとは思いません-おそらく作者はある種の傾向線に固執するべきですか?


3
傾向線(おそらく曲線)は統計的に気になる人にとって自然な追加であることに同意しますが、これはマスメディアのグラフです。
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.