このapproadは誤解を招く可能性があり、これが理由です。
散布図は、各変数の分布について何かを教えてくれます。しかし、散布図は2つの変数間の関係についても通知します。これは、歪度の解釈など、変数の1つについてのみ解釈を行っている場合に問題を引き起こす可能性があります。
(例のように)yが負の値を持たない異分散性を持ついくつかのデータを想定します。結果のプロットは次のようになります。
得られたプロットに比較的近接して設けられプロットプロットにルックスxが均一に分布有しているので、これは実際にそうではないが、そのxが偏っている示唆 Xショーのためのヒストグラムとして(下記データの生成のためのコードを参照)。
したがって、変数間の関係は、1つの変数の分布の解釈に関して、誤解を招く散布図になる可能性があります。
プロットに使用したコード:
set.seed(568)
x = rep(1:10000,2)
a <- 20000
b = -2
sigma2 = x^2
eps = rnorm(x,mean=0,sd= rev(sqrt(sigma2))) # heteroscedasticity
y = a + b*x + eps
y[y<0] <- -y[y<0] # no negative values in y
plot(x, y)
編集:私はベンに同意します。この場合、透明度とオーバープロットが重要であり、これが私の例でこのように大きなサンプルサイズを選択する理由です。同じデータの透過性を使用すると、ミスリードが少なくなります。
plot(x, y, col = alpha("black", 0.05))
rug
軸にa を追加して、ここにいくつかの洞察を含めることができます。を参照してください?rug
。歪度が気になるすべての場合、散布図自体は理想的ではありません-散布図は多次元(x&y)ですが、歪度(AFAIK)は1次元RVに対してのみ定義されます(つまり、xとyに対して定義されますが、(x 、y))