多数の国データが混み合っていますが(下に表示されているように)、ラベルと外れ値が必要です–グラフもたくさんあるため、ウィンドウをリセットして偽のデータポイントを追加するのは面倒です外れ値の。
そのような状況でより良いかもしれない散布図の良い代替はありますか?本当に地図を作成したいのですが、表示された順序付けられたペアの両方の部分が必要です。
多数の国データが混み合っていますが(下に表示されているように)、ラベルと外れ値が必要です–グラフもたくさんあるため、ウィンドウをリセットして偽のデータポイントを追加するのは面倒です外れ値の。
そのような状況でより良いかもしれない散布図の良い代替はありますか?本当に地図を作成したいのですが、表示された順序付けられたペアの両方の部分が必要です。
回答:
数か月前に作成したこのプロットには、いくつかのテクニックが示されています。
「興味深い」ポイントにのみラベルを付け、他のポイントをオンデマンドで識別するためにホバーラベルに依存します。ソフトウェアがうまく機能するには、人間の介入が必要ですが、ソフトウェアは、ラベルが重複せずに表示できる場合にのみラベルを表示するなどのヒューリスティックに近づくことがあります。
ログや分位点などを使用して、スケールを変換します。ここでの注意は、規模がもはや私たちの認識と直接一致していないことです。視聴者は変換を覚えておく必要があります。
その他のオプション:
トレリスまたは小さな倍数を使用します。つまり、国データの地域ごとに1つのグラフを表示するなど、一連のグラフをそれぞれポイントのサブセットとともに表示します。
棒やドットプロットなどのリンクされた単一変数グラフを使用して、ラベルが軸にくるようにします。どちらかの変数で対話的に並べ替えることができれば役立ちます。
散布図の代替案が必要な場合、特に多くの変数間の関係を表示しようとしている場合は、平行座標プロットが機能することがあります。あなたは「たくさんのグラフを持っています」、そして平行座標プロットはそれを一つに減らすことができるかもしれません!以下は、ウィキペディアから引用した有名なアイリスデータセットの例です(画像クレジット)。
プロットは、種間の変動を非常に明確に示しています。代わりに、地理的地域または開発レベルで色を付けることを選択できます。がく片の幅に基づいて3種を区別するのがいかに難しいかがわかりますが、花弁の長さはより分離しています。少し精神的な調整を行った後(目が訓練されすぎて「上向きの勾配」を探すことができない場合があります)、花びらの幅が大きくなると花びらの長さが長くなるため、花びらの幅と花びらの長さの間には明らかに正の相関があります。一方の目盛りの一番上にある花は、もう一方の目盛りの一番上にある傾向があります。これは、軸間を走るほぼ平行な線で表されます。一方、がく片の幅とがく片の長さの間には負の相関があります。
画像は、散布図のマトリックス全体で利用可能な情報の多くをキャプチャすることに成功しています(画像クレジット)。
正の側面では、平行軸プロットにより、測定されたすべての変数にわたって個人を追跡することができます。2つの個別の散布図、特に外れ値に2つの興味深い点がある場合、それらが同じ個人を表しているかどうかはわかりませんが、 「スレッドをたどる」ことができる平行軸プロット。欠点として、これらの散布図をすべて破棄すると、多変量関係に関する情報が破棄されます。最も明らかに、クラスタリングの詳細をそれほどはっきりと見ることはできません(ただし、Nick Coxは、「深い」クラスタリングが変数をどのように通過するかを調査する目的で、平行座標プロットを推奨しています)および線形判別の可能性は完全に不明瞭です。また、平行座標プロットで遠く離れている軸間の相関関係がわかりにくくなることがあります。
双方向性のオプションがある場合、静的な視覚化ではなく、平行座標プロットはこれを回避するためのいくつかのオプションを提供します。たとえば、ユーザーは軸の順序を切り替えて変数を並べて配置し、関心のある関係をより明確に確認できます。正と負の相関は平行座標プロットで非常に異なる動作をするため、軸を反転できると便利です(隣接する軸と負の相関がある軸の方向を逆にすると、それらの間の線が「もつれ」なくなります。 )。静的なプロットであっても、軸を逆転させてできるだけ多くの正の相関を生成し、連続した相関を可能な限り強くするように軸を順序付けるのが最も効果的です。この点)。
おそらく最も重要なインタラクティブ機能はブラッシングとリンクです。たとえば、ユーザーは1つの変数に基づいて個人の上位四分位数を選択でき、その線はプロット全体で自動的に強調表示されます。別の軸上で、主に上部の周りのポイントが強調表示されている場合、これは正の相関を示唆しています(ただし、下の四分位数が2番目の変数の下部の周りのポイントに関連付けられていることを確認する必要があります)。下部の大部分が強調表示されている場合は、負の相関を示しています。軸の上方にランダムに散在するポイントの選択が強調表示されている場合、相関関係はほとんどありません。
含める国の数によっては、非常に寛大なスペースの制約がない限り、すべてのプロットにそれらすべてにラベルを付けるのは難しいようです。最も重要な個々の国だけを強調することで解決する必要があるかもしれません。インタラクティブな視覚化では、ホバーラベルで混乱を避けることができ(@xanが指摘)、おそらくユーザーがラベルを自動的に表示する可能性がある特定の地域(または他のグループ)のすべての国を強調表示することができます。
限られた数のラベルのみを使用する場合、それらを配置することを検討する1つの場所は軸自体です。あなたはエドワード・タフトのを見れば定量的な情報の視覚表示、第7章:多機能化グラフィック要素、あなたは、これは密接に彼は、政府の税収のための「テーブル・グラフィック」と呼ばれる何のためタフティの提案に似ている(参照してくださいよ、それはより身近とすることができます「スロープグラフ」としてのあなた)。各軸は一種のランキング表になり、これは優れた機能です。(アプローチにはいくつかの違いがあります。特に、Tufteのサンプルテーブルグラフィックでは、データを正規化するのではなく、各軸で同じ単位とスケールを使用しているため、彼の「軸」は以前と後の期間を表しているため、勾配には、成長率としての追加の解釈がありました。これらの解釈は、通常、平行座標プロットには当てはまりませんが、各軸のランキングテーブルの考え方には当てはまります。)
リンクと参照