この散布図の解釈方法は?


12

x軸の人数とy軸の給与の中央値に等しいサンプルサイズの散布図があります。サンプルサイズが給与の中央値に影響するかどうかを確認しようとしています。

これはプロットです:

ここに画像の説明を入力してください

このプロットをどのように解釈しますか?


3
可能であれば、両方の変数の変換を使用することをお勧めします。どちらの変数にも正確なゼロがない場合は、ログとログのスケールを
確認してください

@Glen_b申し訳ありませんが、私はあなたが述べた用語に精通していません、プロットを見るだけで、2つの変数の関係を作ることができますか?私が推測できるのは、最大1000のサンプルサイズの場合、同じサンプルサイズの値には複数の中央値があるため、関係はありません。1000を超える値の場合、給与の中央値は減少するように見えます。どう思いますか ?
同じ

それについての明確な証拠は見当たりません。明確な変更がある場合は、おそらくサンプルサイズの低い部分で行われています。データがありますか、それともプロットの画像だけですか?
グレン_b-モニカの復活

4
中央値をn個のランダム変数の中央値とみなす場合、サンプルサイズが大きくなるにつれて中央値の変動が小さくなることは理にかなっています。それは、プロットの左側の大きな広がりを説明するでしょう。
JAD

2
「サンプルサイズが1000までの場合、同じサンプルサイズの値には複数の中央値があります」という記述は誤りです。
ピーターフロム-モニカの復職

回答:


9

「検索」は、データを探索していることを示します。正式なテストは不必要で疑わしいものです。代わりに、標準的な探索的データ分析(EDA)手法を適用して、データに含まれている可能性のあるものを明らかにします。

これらの標準的な手法には、再表現残差分析ロバストな手法(EDAの「3つのR」)、およびJohn Tukeyの古典書EDA(1977)で説明されているデータの平滑化が含まれます。これらのいくつかを行う方法は、Box-Coxでの独立変数の変換のような投稿で概説されていますか?そして線形回帰では、ときではなく実際の値の独立変数のログを使用することが適切ですか?とりわけ

結果は、対数軸に変更し(両方の変数を効果的に再表現する)、データをあまり積極的に平滑化せず、平滑化の残差を調べて見逃している可能性があるものを確認することで、多くを見ることができます。

データに忠実度を変えていくつかのスムースを調べた後のスムージングで表示されるデータは、スムージングが多すぎるか少なすぎるかの良い妥協点のようです。よく知られている堅牢な方法である黄土を使用します(垂直方向の外れた点の影響をあまり受けません)。

対数散布図

垂直グリッドは10,000単位です。滑らかさGrad_median、サンプルサイズの変動を示唆しています。サンプルサイズが1000に近づくにつれて低下するようです(特に、サンプリングエラーが比較的大きいと予想される小さなサンプルの場合、滑らかさの両端は信頼できません)本物の落下のこの印象は、滑らかさの周りのソフトウェアによって描かれた(非常に粗い)信頼バンドによってサポートされています。その「小刻み」はバンドの幅よりも大きいです。

0.220

(a)サンプルサイズの変化に伴う追加の変動パターンがあるかどうか、および(b)応答の条件付き分布(ポイント位置の垂直分布)がサンプルサイズのすべての値でもっともらしいかどうか、またはそれらのいくつかの側面(広がりや対称性など)が変わる可能性があるかどうか。

![図2残差のプロット

0.0

その結果、この簡単な要約:

給与の中央値は、サンプルサイズが1000に近い場合、約10,000低くなります

データに現れる関係を適切にキャプチャし、すべての主要なカテゴリにわたって均一に保持されるようです。それが重要かどうか、つまり、追加データに直面したときに立ち上がるかどうかは、それらの追加データを収集することによってのみ評価できます。


この作業を確認したり、さらに進めたい人のために、ここにRコードがあります。

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

7

Glen_bは、sample_sizeの対数と給与の中央値を使用して、データの再スケーリングが適切かどうかを確認することを提案しています。

サンプルサイズが1,000を超えると、給与の中央値が下がるという考えに同意するかどうかはわかりません。関係はまったくないと言いたいです。あなたの理論は関係があるべきだと予測していますか?

考えられる関係を評価する別の方法は、回帰直線をデータに適合させることです。または、低曲線を使用することもできます。両方の行をデータにプロットして、何かを引き出すことができるかどうかを確認します(ただし、過度に実質的なものがあるとは思いません)。


3
散布図は、メタ分析で使用されるファンネルプロットに非常に似ています。同様の例を参照してください。ファンネルバンドをプロットすると、関係があるかどうかがより明確に示されますが、この例ではわずかにプラスの関係がある可能性があります。
アンディW

6

私も関係がないことに同意します。元の散布図を再現し(左)、glen_bが提案する対数散布図を作成しました(右)。

ここに画像の説明を入力してください

どちらとも関係がないように見えます。対数変換されたデータ間の相関は弱く(ピアソンR = -.13)、重要ではありません(p = .09)。余分な情報がどれだけあるかにもよりますが、弱い負の相関関係が見られる理由があるかもしれませんが、それはストレッチのようです。あなたが見ている明らかなパターンはここで見られるのと同じ効果だと思います

R=0.0022p=0.98


grad-medianとgrad-sample-sizeの相関関係を見てくれてありがとう。数字の違いに深く戸惑いました!
ファマルガー

0

最初の回答で提案されているように、線形回帰を試してみると、この関係について何かがわかります。このプロットにpythonとmatplotlibを使用しているように見えるので、ソリューションから1行離れたコードです。

seaborn jointplotを使用できます。これは、線形回帰線、ピアソン相関係数、およびそのp値も表示します。

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

ここに画像の説明を入力してください

ご覧のとおり、相関関係はありません。この最後のプロットを見ると、x変数を対数変換すると便利だと思われます。試してみよう:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

ここに画像の説明を入力してください

対数変換の有無にかかわらず、相関が小さく、p値と信頼区間の両方が統計的に意味がないとはっきりとわかります。


3
強く歪んだ条件付き分布の表示は、これが良いアプローチではないことを示唆しています。また、サンプルサイズの分布のゆがみにより、いくつかの最大サンプルサイズが回帰のトレンドの外観を制御することを観察すると、他の人がデータの予備変換を推奨している理由がわかります。
whuber

1
私は推測も推測もしていない。質問のプロットはこれらの特性を明確に示している。また、R Greg Staceyによって作成されたプロットも参照してください。これは、推奨されるログとログの変換を適用することにより、それらが達成することを示しています。
whuber

データを見つけて、自分で調査しました。更新された回答をご覧ください。
ファマルガー

あなたの研究は、私が指摘した2つの問題に負けています。「相関なし」の出現は、偏った条件付き応答と高いリグレッサー値のレバレッジに由来します。特に、当てはめられた線もその誤差バンドも信頼できません。
whuber

追加したばかりのプロットをご覧ください。この最後の繰り返しで何も見逃していないことを願っています。
ファマルガー

-1

このプロットは、中心サイズ定理のデモンストレーションとして機能します。ここでは、サンプルサイズが大きくなるにつれて、サンプル間のばらつきが減少します。また、給与のような大きく歪んだ変数で予想される形状です。


3
これらは、一般的な母集団からの独立したサンプルではありません。そのため、CLTの関連性はかなり問題になります。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.