非常に多くのペアのデータポイントをグラフィカルに表す良い方法は何ですか?


9

私の分野では、ペアのデータをプロットする通常の方法は、2つのグループの中央値と中央値のCIでオーバーレイする一連の細い傾斜線セグメントとしてです。

ここに画像の説明を入力してください

ただし、この種のプロットは、データポイントの数が非常に大きくなるため(私の場合、1万ペア程度)、読みにくくなります。

ここに画像の説明を入力してください

アルファを減らすことは少し助けになりますが、それでもまだ素晴らしいとは言えません。解決策を探しているときに、このホワイトペーパーに出くわし、「平行線プロット」を実装することにしました。繰り返しますが、これは少数のデータポイントに対して非常にうまく機能します。

ここに画像の説明を入力してください

N

ここに画像の説明を入力してください

たとえば、ボックスプロットやバイオリンを使用して2つのグループの分布を個別に表示し、2つの中央値/ CIを示す上部にエラーバーを付けて線をプロットすることはできると思いますが、それは伝えられないので、私は本当にその考えが好きではありません。データのペアの性質。

また、2D散布図のアイデアにあまり熱心ではありません。よりコンパクトな表現が理想的です。理想的には、2つのグループの値が同じ軸に沿ってプロットされている表現が望ましいです。完全を期すために、データは2D散布図のようになります。

ここに画像の説明を入力してください

非常に大きなサンプルサイズでペアのデータを表すより良い方法を誰かが知っていますか?いくつかの例にリンクしていただけませんか?

編集する

すみません、私が探しているものを説明するのに十分な仕事をしていないのは明らかです。はい、2D散布図は機能します。ポイントの密度をよりよく伝えるために、2D散布図を改善する方法はたくさんあります-カーネル密度推定に従ってドットを色分けして、2Dヒストグラムを作成できます、等高線をドットの上などにプロットできます...

しかし、これは私が伝えようとしているメッセージに対してはやり過ぎだと思います。ポイント自体の 2D密度を表示することについては特に気にしません-必要なのは、「棒」の値が「点」の値よりも一般的に大きいことを、できるだけ単純かつ明確な方法で示すことだけです。 、そしてデータの本質的なペアの性質を失うことなく。理想的には、2つのグループのペアの値を直交軸ではなく同じ軸に沿ってプロットしたいのです。これにより、視覚的に比較することが容易になります。

多分散布図より良い選択肢はありませんが、うまくいく可能性のある代替案があるかどうか知りたいのですが。


1
bardot軸と縦軸の対応する値を単に散布図としてプロットしてみましたか?
ホフマンまで2015

@TillHoffmannはい、私は私の質問の最後にそれを述べました。それはおそらく私が現在持っている最良のオプションですが、よりコンパクトな表現を望みます。理想的には、同じ軸に沿って両方のグループの値を表すものです(多分、私は不当に要求しています...)。質問に散布図を追加します。
ali_m 2015

すみません、見逃しました。現在、どのようにして合成データを生成していますか?
ホフマンまで2015

2
「コンパクト」な表現とはどういう意味ですか?散布図は、小さな領域の個々の異常なデータだけでなく、関係を示すという点でも他のすべてより明らかに優れています。データセットのサイズが大きくなると、それはより良くなるだけです。(散布図の場合、10,000は大きくありません。)非常に多くの異なるグラフィックについて言及しているため、本当に必要なものを推測することは不可能です。ビジュアライゼーションの目的を教えてください。正確にどのような情報を学び、他の人に伝えたいですか?どのくらい正確かつ迅速にそれが知覚され理解されることを意図していますか?
whuber

1
@whuberわかりづらいです。私が望んでいたのは、両方のグループの値が直交する軸ではなく、同じ軸に沿ってプロットされるようにデータを表現する方法でした(「傾斜線」と「平行線」のプロットのように)。メッセージは非常に単純です。「棒」の値は一般に「点」の値よりも高くなります。それ以外は、分布の密度を表すことについてはあまり気にしませんが、サンプルには多数のペアがあることを伝えたいと思います。
ali_m 2015

回答:


7

あなたの目的を私がどのように理解しているかを考えると、ペアの差(bars - dots)を計算し、これらの差をヒストグラムまたはカーネル密度推定プロットにプロットします。また、(1)差ゼロに対応する垂直線(2)パーセンタイルの任意の組み合わせを追加することもできます。

これにより、データのどの部分がbarsを超えてdotsいるか、一般的には観察された違いが何であるかがわかります。

(私はあなたの実際の、生の値を表示するのに興味がないと仮定してきたbarsdots同じプロットインチ)

これらの違いが有意であるかどうかを示すために、信頼度または信頼できる事後間隔をプロットすることもできます。(H / T @MrMeritology!)


この回答に加えて、ペアの差の信頼区間をプロットして、差が有意であるかどうかを視覚的に示すこともできます。
MrMeritology 2015

yB=μ+offset(yA)+Δ(yAy¯A

2

yByAyA

yB=μ+offset(yA)+Δ(yAy¯A)+ϵ
+Δ2(yAy¯A)2

グラフィカルに、アルファファクター(*)を減らし、表示されているとおりにラインを表示できます。ラインのランダムなサンプルのみを表示することで、さらに減らすことができます。次に、傾斜に応じて線に色を付けることができます...

Nick Coxのコメントで言及されているBland-Altmanプロットについては、たとえば、個人ごとに複数の観測値を持つメソッド間の協定の例を参照する か、またはタグを調べてください。

(*)ここでのアルファ係数は、プロット内のポイントを透明にするグラフィカルパラメータであるため、最初にプロットされたポイントは、後でオーバープロットによって完全に隠蔽されるわけではありません。


1

1

2D散布図を使用します。混雑した地域でのコントラストを高めるために、基準線を薄い灰色で描画します。混雑を緩和するには、境界線なしでマーカーを描画し、アルファをさらに減らし、マーカーサイズを減らします。

それはあなたがより多くのディストリビューションの翼よりも典型的なペアに興味がある場合は、ラインプロットの累積和してみてください、とdotsの累積和対をbars。プロットは2Dのままですが、インクははるかに少なくなっています。プロットエリアも保存するには、トレースを45°回転して、フレームが基準方向になるようにします。

そのプロットは、データの傾向も示します。プロセスが定常的であることがわかっている場合は、ペアを、たとえばそれらの幾何平均などで並べ替えますsqrt(bars*dots)


0

中央値と四分位数、またはその点について必要な数の百分位数の場合、線をプロットすることをお勧めします。中央値は、他の百分位数の線よりも厚いままであるか、識別可能である可能性があります。これは、フィールドで現在使用されているプロットの単純さと親しみやすさを損なうことなく、分布全体でのデータの動作を確認する機能を維持するのに役立ちます。

また、このような高いサンプルサイズでは、中心極限定理を完全に楽しんでいるため、エラーバーのある平均または中央値のトレンドで十分な可能性があります。生物医学分野もこれらのペアのラインプロットに依存していますが、サンプルサイズが10〜20のオーダーになる可能性があるため、これはよく起こります。そのため、潜在的なレバレッジポイントを視覚化することが重要です。


0

私の最初の提案は散布図です。

プロットで10000ドットが不均一に広がっている場合でも、あいまいな雲であれば、ヒートマップを検討してください。x = 10.5、y = 11.5のピクセルの色は、10.45から10.55の間の値が11.45から11.55の間の値にマッピングされる回数を示します。0=白= RGB(255,255,255)、1 =青= RGB(0、 0,255)、2 = RGB(1,0,254)、... 256以上= RGB(255,0,0)=赤


これは本質的に、解像度が低いことを除いて、2D散布図と同じ種類の表現になります。最終的にはこのようなことをするかもしれませんが、理想的には、両方のグループの値を直交軸ではなく同じ軸に沿ってプロットする、よりコンパクトな表現を望んでいました。
ali_m 2015

1
散布図を見ると、「インクスポット」の中心にある多くの情報が失われていることがわかります。変換(対数?)を適用するか、提案するヒースマップを使用して、何かを行う必要があります。
Dirk Horsten、2015

ごめんなさい!あなたの提案は完全に合理的なものです-私が探しているものを説明するのに十分な仕事をしていません。はい、2次元プロット(散布図、ヒートマップ、等高線図など)は、サンプルポイントの密度を表すのに適していますが、実際に表示する必要があるよりも多くの情報だと思います。私がする必要があるのは、「棒」の値が「点」の値よりも一般的に高いことを示すことです。データのペアの性質を維持しながら、これを示す最も簡単な方法を探しています。
ali_m 2015

散布図の対角線は方向を十分に示していませんか?
Dirk Horsten、2015

いいえ、でも多分私は不合理な期待を持っています:-)
ali_m
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.