可視化とオーバープロット：散布の代替

多数の国データが混み合っていますが（下に表示されているように）、ラベルと外れ値が必要です–グラフもたくさんあるため、ウィンドウをリセットして偽のデータポイントを追加するのは面倒です外れ値の。

そのような状況でより良いかもしれない散布図の良い代替はありますか？本当に地図を作成したいのですが、表示された順序付けられたペアの両方の部分が必要です。

ここに画像の説明を入力してください

data-visualization

— arebearit
ソース

これは、現在の形で答えるのが難しいほど私を襲います。自分の状況、データ、および目標についての詳細情報を提供できますか？変数は何ですか？どういうわけか、外れ値を特定する必要があるだけですか（たとえば、非可視化ベースのアプローチで問題ないでしょうか）？どのソフトウェアを使用していますか？コードを求めているだけですか？（もしそうなら、質問はここではトピックから外れます。）等

— ガン-モニカ

過剰にプロットしないようにラベルを配置しようとするソフトウェアがあります（Rの場合）。また、ポイントが不要なすべてのラベルがある場合は、ラベルが役立ちます！フォントサイズを小さくしてみてください。透明度を変更することで、Rで名前を覚えていないフォントを透けて見えるようにすることもできます。ggplot2、またはF Harrells Designをご覧ください。

— kjetil b halvorsen 2015年

回答:

数か月前に作成したこのプロットには、いくつかのテクニックが示されています。

「興味深い」ポイントにのみラベルを付け、他のポイントをオンデマンドで識別するためにホバーラベルに依存します。ソフトウェアがうまく機能するには、人間の介入が必要ですが、ソフトウェアは、ラベルが重複せずに表示できる場合にのみラベルを表示するなどのヒューリスティックに近づくことがあります。
ログや分位点などを使用して、スケールを変換します。ここでの注意は、規模がもはや私たちの認識と直接一致していないことです。視聴者は変換を覚えておく必要があります。

ここに画像の説明を入力してください

その他のオプション：

トレリスまたは小さな倍数を使用します。つまり、国データの地域ごとに1つのグラフを表示するなど、一連のグラフをそれぞれポイントのサブセットとともに表示します。
棒やドットプロットなどのリンクされた単一変数グラフを使用して、ラベルが軸にくるようにします。どちらかの変数で対話的に並べ替えることができれば役立ちます。

ここに画像の説明を入力してください

— ザン
ソース

私は一番上のプロットが大好きです。そのためのコードをどこかでリリースしましたか？「つまり、一連のグラフを表示し、それぞれの国のデータの地域ごとに1つのグラフを表示するなど、ポイントのサブセットを表示する」が良い点です。スタタ（彼はそのためのパッケージを書いたと思います）。追跡してリンクできるか確認します。

— Silverfish、2015年

@Silverfishに感謝！JMP（私の会社の製品）でインタラクティブに散布図を作成し、ラベルを手動で調整し、ピンクのパーツをプログラムで追加しました。Twitterへの「公開」の危険-もう少し説明、データ、スクリプトを付けてどこかに投稿する必要がある。私が成功した場合、こちらのリンクでフォローアップします。

— xan

あなたは、例えばStatalistの柱を考えてすることができる@Silverfish statalist.org/forums/forum/general-stata-discussion/general/...

— ニック・コックス

最初のグラフのデータとスクリプトはcommunity.jmp.com/docs/DOC-7108にあります。

— xan

@ニックコックスそうです！まあ実際に私はそれを見たと思います：Cox、NJ 2010、 " Graphing サブセット"、The Stata Journal、10：670-681。しかし、そのStatalist投稿のカラーグラフィックスは、実際にそれをさらに明確にします。ジャーナルの記事へのリンクはwww.stata-journal.com/sjpdf.html?articlenum=gr0046（疑問符がハイパーリンクとして表示されるのを止めているのではないかと思います）

— Silverfish

散布図の代替案が必要な場合、特に多くの変数間の関係を表示しようとしている場合は、平行座標プロットが機能することがあります。あなたは「たくさんのグラフを持っています」、そして平行座標プロットはそれを一つに減らすことができるかもしれません！以下は、ウィキペディアから引用した有名なアイリスデータセットの例です（画像クレジット）。

アイリスデータの平行座標プロット

プロットは、種間の変動を非常に明確に示しています。代わりに、地理的地域または開発レベルで色を付けることを選択できます。がく片の幅に基づいて3種を区別するのがいかに難しいかがわかりますが、花弁の長さはより分離しています。少し精神的な調整を行った後（目が訓練されすぎて「上向きの勾配」を探すことができない場合があります）、花びらの幅が大きくなると花びらの長さが長くなるため、花びらの幅と花びらの長さの間には明らかに正の相関があります。一方の目盛りの一番上にある花は、もう一方の目盛りの一番上にある傾向があります。これは、軸間を走るほぼ平行な線で表されます。一方、がく片の幅とがく片の長さの間には負の相関があります。

画像は、散布図のマトリックス全体で利用可能な情報の多くをキャプチャすることに成功しています（画像クレジット）。

アイリスデータの散布図行列

正の側面では、平行軸プロットにより、測定されたすべての変数にわたって個人を追跡することができます。2つの個別の散布図、特に外れ値に2つの興味深い点がある場合、それらが同じ個人を表しているかどうかはわかりませんが、「スレッドをたどる」ことができる平行軸プロット。欠点として、これらの散布図をすべて破棄すると、多変量関係に関する情報が破棄されます。最も明らかに、クラスタリングの詳細をそれほどはっきりと見ることはできません（ただし、Nick Coxは、「深い」クラスタリングが変数をどのように通過するかを調査する目的で、平行座標プロットを推奨しています）および線形判別の可能性は完全に不明瞭です。また、平行座標プロットで遠く離れている軸間の相関関係がわかりにくくなることがあります。

双方向性のオプションがある場合、静的な視覚化ではなく、平行座標プロットはこれを回避するためのいくつかのオプションを提供します。たとえば、ユーザーは軸の順序を切り替えて変数を並べて配置し、関心のある関係をより明確に確認できます。正と負の相関は平行座標プロットで非常に異なる動作をするため、軸を反転できると便利です（隣接する軸と負の相関がある軸の方向を逆にすると、それらの間の線が「もつれ」なくなります。）。静的なプロットであっても、軸を逆転させてできるだけ多くの正の相関を生成し、連続した相関を可能な限り強くするように軸を順序付けるのが最も効果的です。この点）。

おそらく最も重要なインタラクティブ機能はブラッシングとリンクです。たとえば、ユーザーは1つの変数に基づいて個人の上位四分位数を選択でき、その線はプロット全体で自動的に強調表示されます。別の軸上で、主に上部の周りのポイントが強調表示されている場合、これは正の相関を示唆しています（ただし、下の四分位数が2番目の変数の下部の周りのポイントに関連付けられていることを確認する必要があります）。下部の大部分が強調表示されている場合は、負の相関を示しています。軸の上方にランダムに散在するポイントの選択が強調表示されている場合、相関関係はほとんどありません。

含める国の数によっては、非常に寛大なスペースの制約がない限り、すべてのプロットにそれらすべてにラベルを付けるのは難しいようです。最も重要な個々の国だけを強調することで解決する必要があるかもしれません。インタラクティブな視覚化では、ホバーラベルで混乱を避けることができ（@xanが指摘）、おそらくユーザーがラベルを自動的に表示する可能性がある特定の地域（または他のグループ）のすべての国を強調表示することができます。

限られた数のラベルのみを使用する場合、それらを配置することを検討する1つの場所は軸自体です。あなたはエドワード・タフトのを見れば定量的な情報の視覚表示、第7章：多機能化グラフィック要素、あなたは、これは密接に彼は、政府の税収のための「テーブル・グラフィック」と呼ばれる何のためタフティの提案に似ている（参照してくださいよ、それはより身近とすることができます「スロープグラフ」としてのあなた）。各軸は一種のランキング表になり、これは優れた機能です。（アプローチにはいくつかの違いがあります。特に、Tufteのサンプルテーブルグラフィックでは、データを正規化するのではなく、各軸で同じ単位とスケールを使用しているため、彼の「軸」は以前と後の期間を表しているため、勾配には、成長率としての追加の解釈がありました。これらの解釈は、通常、平行座標プロットには当てはまりませんが、各軸のランキングテーブルの考え方には当てはまります。）

リンクと参照

Cox、NJ " Speaking Stata：Graphing Agreement and Disagreement "、The Stata Journal（2004）4、Number 3、pp。329–349-これは、平行座標プロットだけでなく、興味のある他のいくつかをカバーしています。
彼の「テーブルグラフィック」を含む、slopegraphsに関するエドワード・タフテのブログ投稿。
いくつかの利点と制限を含む、並列座標に関する Robert Kosaraのブログ投稿（伝統的な並列座標プロットでカテゴリカルデータを表すことができないため、Kosaraは並列セットの視覚化を開発しました- 彼の論文も参照してください）。
いくつかのインタラクティブな例：Protovisを使用した素晴らしい例と、よりスムーズな置換D3.jsを使用した別の例（軸名をドラッグして移動します。他の例はこちらを参照してください）。

— シルバーフィッシュ
ソース

+1。言及いただきありがとうございます。赤と緑を組み合わせると、特にシンボルが同じである場合、多くの人にとって課題となることに注意してください。赤、青、黒のほうがうまくいきます。

— Nick Cox

@Nickはい、私はこれらはその前線での非常に良い例のプロットではないと思いました-彼らは（Wikipediaで）自由にライセンスされているので、それらを借りただけです。自由にライセンスされたより良い例を見つけることができたら、それらを置き換えます（または自分で作成するための時間が少しあれば）。

— Silverfish、2015年