3つの異なるニュース出版物がさまざまなトピックをカバーする方法を視覚的に比較しようとしています(LDAトピックモデルによって決定されます)。これを行うための2つの関連する方法がありますが、これはあまり直感的ではないという同僚から多くのフィードバックを受け取っています。誰かがこれを視覚化するためのより良いアイデアを持っていることを願っています。
最初のグラフでは、各出版物の各トピックの割合を次のように示しています。
これは、私が話したほとんどすべての人にとって非常に簡単で直感的です。ただし、出版物の違いを確認することは困難です。どの新聞がどのトピックをさらに取り上げていますか?
これを実現するために、トピックの割合が最も高い出版物と2番目に高い出版物との違いをグラフ化し、最高の出版物で色付けしました。このような:
たとえば、サッカーの巨大なバーは、実際にはアルアフラムイングリッシュとデイリーニュースエジプト(サッカーの報道では2位)の間の距離であり、アルアハラムが1位であるため、赤色になっています。同様に、エジプト独立の割合が最も高く、バーサイズがエジプト独立とデイリーニュースエジプト(再び#2)の間の距離であるため、試行は緑色です。
2つのパラグラフのすべてが、グラフが自給自足テストに失敗したというかなり確実な兆候であることを説明しなければならないという事実。見ているだけでは、実際に何が起こっているのかを知るのは困難です。
各トピックの主要な出版物を視覚的に強調する方法に関する一般的な提案はありますか?
編集:データを再生するにはここでのdput
Rからの出力だけでなく、CSVファイル。
編集2:これは予備のドットプロットバージョンです。ドットの直径はコーパス内のトピックの割合に比例します(これは、トピックが最初にソートされた方法です)。まだ少し調整する必要がありますが、以前よりもずっと直感的に感じられます。みんな、ありがとう!