3つのグループ間で多くの割合の違いを最もよく視覚化する方法は?


18

3つの異なるニュース出版物がさまざまなトピックをカバーする方法を視覚的に比較しようとしています(LDAトピックモデルによって決定されます)。これを行うための2つの関連する方法がありますが、これはあまり直感的ではないという同僚から多くのフィードバックを受け取っています。誰かがこれを視覚化するためのより良いアイデアを持っていることを願っています。

最初のグラフでは、各出版物の各トピックの割合を次のように示しています。

すべてのトピックと出版物の割合

これは、私が話したほとんどすべての人にとって非常に簡単で直感的です。ただし、出版物の違いを確認することは困難です。どの新聞がどのトピックをさらに取り上げていますか?

これを実現するために、トピックの割合が最も高い出版物と2番目に高い出版物との違いをグラフ化し、最高の出版物で色付けしました。このような:

1番目と2番目に高いトピックの違い

たとえば、サッカーの巨大なバーは、実際にはアルアフラムイングリッシュとデイリーニュースエジプト(サッカーの報道では2位)の間の距離であり、アルアハラムが1位であるため、赤色になっています。同様に、エジプト独立の割合が最も高く、バーサイズがエジプト独立とデイリーニュースエジプト(再び#2)の間の距離であるため、試行は緑色です。

2つのパラグラフのすべてが、グラフが自給自足テストに失敗したというかなり確実な兆候であることを説明しなければならないという事実。見ているだけでは、実際に何が起こっているのかを知るのは困難です。

各トピックの主要な出版物を視覚的に強調する方法に関する一般的な提案はありますか?

編集:データを再生するにはここでのdputRからの出力だけでなく、CSVファイル

編集2:これは予備のドットプロットバージョンです。ドットの直径はコーパス内のトピックの割合に比例します(これは、トピックが最初にソートされた方法です)。まだ少し調整する必要がありますが、以前よりもずっと直感的に感じられます。みんな、ありがとう!

ドットプロット


1
いくつかのデータを追加しました(RとCSV用)。私は色盲の問題を認識してんだけれども、私は、良い色を選ぶ終え、まだ(それゆえChristmasyが赤/緑)していない:)
アンドリュー

1
データは実際には比例ではなく、さらに重要なことですが、これまでのところ、グラフィカルなソリューションはどれも比例するデータに依存していないため、ここでは「割合」の言及は少し赤いニシンです。ソリューションは幅広いデータに関連しているため、誤解しないでください。
ニックコックス

(+1)ダウンロード可能なデータセットとクイックフォローアップを含む素晴らしい質問!
CHL

アンドリュー、あなたの最新の編集に関して、垂直グリッド線の方が良いと思います。これらはチェッカーパターンを作成しますが、グラフから正確な値を読み取ることを気にしないと仮定すると、あまり価値を追加しません。
xan 14

縦線なし
アンドリュー14

回答:


18

データをアクセス可能にし、興味深いデータセットとグラフィカルなチャレンジをありがとう。

私の主な提案は、(クリーブランド)ドットチャートです。

ここに画像の説明を入力してください

私が強調したい最も重要な詳細:

  1. ここでの重ね合わせにより、比較が容易になります。

  2. ディスプレイのトピックの順序は非常にarbitrary意的です。自然な順序(時間、スペース、順序付けられた変数など)がない場合、フレームワークを提供するために常に変数の1つでソートします。どちらを使用するかは、特に興味深いか重要か、研究者の決定の問題である可能性があります。別の可能性としては、論文間の違いを何らかの尺度で注文することで、同様の報道を受けるトピックが一方の端にあり、異なる報道を受けるトピックが他方の端にあるようにすることです。

  3. オープンマーカーまたはポイントシンボルを使用すると、クローズまたはソリッドマーカーまたはシンボルよりも重なりまたは同一性をより良く解決できます。最悪の場合、互いに隠したり、隠したりします。(ここで非常にうまくいくかもしれない代替案は、3つの新聞のA、D、Iなどの手紙です。)

私の設計を改善する余地が明らかにあります。たとえば、レタリングが大きすぎたり、重すぎたりしませんか?一方、見出しは読みやすいものでなければなりません。さもないと、グラフが失敗します。

いくつかのより小さい、よりピッキーなポイント:

a。グラフの赤と緑は、避けるべき色の組み合わせです。異なるマーカーを使用する場合、色の選択はもう少し重要です。

b。グラフの横の目盛りが気を散らしています。対照的に、私のものにはグリッド線が必要ですが、細くて軽い線を使用して目立たないようにします。

c。グラフにはパーセントが表示され、合計は約20 0.1%または2%であるため、論文の98%は別のものですか?提供されている.csvでプロポーションを直接使用しました。×

クリーブランドのドットチャートは、

クリーブランド、WS1984。データ表示のためのグラフィカルな方法:フルスケールのブレーク、ドットチャート、マルチベースロギング。アメリカ統計学者 38:270-80。

クリーブランド、WS1985。データのグラフ化の要素。 カリフォルニア州モントレー:ワズワース。

クリーブランド、WS1994。グラフデータの要素。 ニュージャージー州サミット:ホバートプレス。

1つの前駆体(まったく異なる仕事で統計的に有名!!!)

ピアソン、ES1956。統計の幾何学のいくつかの側面:数学的統計の理論と応用の理解における視覚的表現の使用。Journal of the Royal Statistical Society A 119:125-146。

興味がある人のために、グラフは.csvをコードで読み込んだ後、Stataで作成されました

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 

これは素晴らしいです。ありがとう!残念ながら、値はドキュメントの大きなコーパスから標準化された平均値であるため、合計は何にもなりません(つまり、各出版物のすべてのドキュメントはLDAによって発見された20のトピックの組み合わせで構成されます。少数)
アンドリュー

また、トピックはコーパス内の割合で並べられます。エジプトのガバナンスは最も一般的なトピックですが、その他は最もまれなトピックです。ただし、ここでその順序を使用すると、ドット/シンボルが視覚的に追跡しにくくなります。
アンドリュー

これは素晴らしい!ありがとう!元の投稿を更新して、提案を反映し、コーパスの割合を追加しました。
アンドリュー

(+6)いい答えです!また、参照と再現可能なコードがあることは常に素晴らしいことです。
CHL

@chl感謝のコメントと追加の評判に感謝します。
ニックコックス

14

Nick Coxのドットプロットは、おそらく全体像に最適です。最初と2番目の関係を本当に強調したい場合は、2番目のバーの長さで差異バーをオフセットするチャートの変更を以下に示します。

ここに画像の説明を入力してください

また、別の全体像を見るには、勾配図や平行座標プロットなどを試すことができます。ここでは行が少し混雑しているかもしれませんが、トピックのサブセットを強調したい場合にはうまくいくかもしれません。

ここに画像の説明を入力してください

また、このような非常に具体的なデータの質問を対象とするhelpmeviz.comを試してみることもできます。


面白い!微小点:軸のタイトルまたはラベル「割合」が%の単位と一致しません。
ニックコックス

ああ、これは本当に面白い。これを使って、ドットチャートを補完できるかどうかを確認します。
アンドリュー

2

私の最初の目的は、モザイクプロットを提案することでした。各サブカテゴリを長方形としてグラフ化します。1つのディメンションはメインカテゴリの合計数を表し、他のディメンションはサブカテゴリの比例配分を表します。それらを描画するRパッケージがありますが、低レベルのグラフ作成ツールを使用するのもかなり簡単です。

ただし、比率に基づいて比較するディメンションにカテゴリが2つまたは3つしかない場合、モザイクプロット(パーセンテージベースの積み上げ棒グラフなど)が最適に機能します。したがって、3つの新聞のそれぞれにある記事の割合でトピック間の違いを比較したい場合にはうまく機能しますが、各トピックの報道の割合で3つの新聞間の違いを比較することは意図した用途にはあまり適していません。微妙だが重要な違い!

あなたが強調したいことについて、最も効果的なグラフは最も単純なものの1つであると思います-グループ化された棒グラフ。 棒グラフはドットチャートよりも多くの人が理解しています。一目で、さまざまなサイズの数量を比較していることがわかり、比較したい値が並んでいることがわかります。

ただし、比率の違いを本当に強調したい場合は、カスタムグループ化された棒グラフを作成し、カテゴリごとの中央値がゼロ値ではなく軸に揃えられるように各グループを配置するように変更できます。

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

各グループのバーはサイズを簡単に比較できるように配置されたままであり、各グループのベースラインはグループの中央値に従って軸の左側に配置されますが、軸の右側に投影されるバーは同等です上の2つのカテゴリの違いを示す2番目の棒グラフに。

標準のグループ化された棒グラフを使用するか、上記のようなオフセット調整されたグラフを使用するかに関係なく、モザイクプロットからアイデアを得て、各バーの幅をその新聞の総記事数に比例させることができますバーはそのカテゴリのその新聞の記事の数に比例します)。

検定統計量は個々の値ではなく各比較のプロパティであるため、重要度に従ってすべてのデータポイントをスケーリングすることは有用ではないと思います。代わりに、重要性を表す各グループの横にアイコンがあります。学術出版の場合、標準*/ **/に***は親しみがあるという利点がありますが、統計の完全な連続体を表示したい場合は創造性を発揮できます。


ここでの主なアイデアは、バーを垂直にグループ化することです。これは広く使用されているデザインですが、ポスターのオリジナルの20本ではなく、60本のバーを意味します。バーの幅を明確に調整することはできますが、この場合、特にグループ間にスペースを追加する場合は、これをうまく行うためにより多くのスペースが必要になると思います。
ニックコックス14年

@NickCoxこれは、横向きの図が全体的なレイアウトに合っていれば、グラフ全体を90度回転させることができますが、よりコンパクトな元のチャートと比べてマイナス面です。
アメリアBR 14年

...あなたはできるが、右あまりにも左から60本のバーはタフであり、そのような「ムスリム同胞団と政治」など20枚のラベルが読めるままにする必要があります
ニック・コックス

グループ内のバーを並べて配置するのではなく、互いの上に配置することで、機能させることができます。モックアップを見ずに言うのは難しい(そして私のASCIIアートはルックアンドフィールを伝えるのがあまり得意ではない)。構造があまり馴染みがないため、直観的ではなく、2本のバーの高さがほぼ同じである場合、混乱を招く可能性があります。しかし、選択肢が1ピクセル幅のバー...である場合
AmeliaBR

だから、あなたはドットチャートの私の答えの提案に近づいています。
ニックコックス14年

1

バブルチャートを試しましたか?https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

個々のトピックは円にすることができ、各円は各ニュースアウトレットがトピックをカバーする割合の円グラフにすることができます。円のサイズは、トピックの相対的なカバレッジを示している可能性があります。たとえば、文化よりも多くの記事がオイルについて書かれている場合、オイルサークルの直径は大きくなります。


何を考え座標は、その後も?[X,Y]
ニックスタウナー

1
@NickStauner私が最初にこれに答えたとき、私はデータセットで編集された質問を見ませんでした。座標は多くの出版物を意味しません。円は、トピックまたは直径のサイズごとにクラスター化できます。数値が非常に小さいため、そもそもパーセンテージが使用された理由がわかりません。
Rocinanteの
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.