x軸の人数とy軸の給与の中央値に等しいサンプルサイズの散布図があります。サンプルサイズが給与の中央値に影響するかどうかを確認しようとしています。
これはプロットです:
このプロットをどのように解釈しますか?
x軸の人数とy軸の給与の中央値に等しいサンプルサイズの散布図があります。サンプルサイズが給与の中央値に影響するかどうかを確認しようとしています。
これはプロットです:
このプロットをどのように解釈しますか?
回答:
「検索」は、データを探索していることを示します。正式なテストは不必要で疑わしいものです。代わりに、標準的な探索的データ分析(EDA)手法を適用して、データに含まれている可能性のあるものを明らかにします。
これらの標準的な手法には、再表現、残差分析、ロバストな手法(EDAの「3つのR」)、およびJohn Tukeyの古典書EDA(1977)で説明されているデータの平滑化が含まれます。これらのいくつかを行う方法は、Box-Coxでの独立変数の変換のような投稿で概説されていますか?そして線形回帰では、ときではなく実際の値の独立変数のログを使用することが適切ですか?、とりわけ。
結果は、対数軸に変更し(両方の変数を効果的に再表現する)、データをあまり積極的に平滑化せず、平滑化の残差を調べて見逃している可能性があるものを確認することで、多くを見ることができます。
データに忠実度を変えていくつかのスムースを調べた後のスムージングで表示されるデータは、スムージングが多すぎるか少なすぎるかの良い妥協点のようです。よく知られている堅牢な方法である黄土を使用します(垂直方向の外れた点の影響をあまり受けません)。
垂直グリッドは10,000単位です。滑らかさはGrad_median
、サンプルサイズの変動を示唆しています。サンプルサイズが1000に近づくにつれて低下するようです(特に、サンプリングエラーが比較的大きいと予想される小さなサンプルの場合、滑らかさの両端は信頼できません)本物の落下のこの印象は、滑らかさの周りのソフトウェアによって描かれた(非常に粗い)信頼バンドによってサポートされています。その「小刻み」はバンドの幅よりも大きいです。
(a)サンプルサイズの変化に伴う追加の変動パターンがあるかどうか、および(b)応答の条件付き分布(ポイント位置の垂直分布)がサンプルサイズのすべての値でもっともらしいかどうか、またはそれらのいくつかの側面(広がりや対称性など)が変わる可能性があるかどうか。
その結果、この簡単な要約:
給与の中央値は、サンプルサイズが1000に近い場合、約10,000低くなります
データに現れる関係を適切にキャプチャし、すべての主要なカテゴリにわたって均一に保持されるようです。それが重要かどうか、つまり、追加データに直面したときに立ち上がるかどうかは、それらの追加データを収集することによってのみ評価できます。
この作業を確認したり、さらに進めたい人のために、ここにR
コードがあります。
library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual :=
residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) +
ggtitle("EDA of Median Salary vs. Sample Size",
paste("Span of smooth is", signif(span, 2)))
print(g)
span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() +
ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
paste("Span of smooth is", signif(span, 2)))
print(g.r)
Glen_bは、sample_sizeの対数と給与の中央値を使用して、データの再スケーリングが適切かどうかを確認することを提案しています。
サンプルサイズが1,000を超えると、給与の中央値が下がるという考えに同意するかどうかはわかりません。関係はまったくないと言いたいです。あなたの理論は関係があるべきだと予測していますか?
考えられる関係を評価する別の方法は、回帰直線をデータに適合させることです。または、低曲線を使用することもできます。両方の行をデータにプロットして、何かを引き出すことができるかどうかを確認します(ただし、過度に実質的なものがあるとは思いません)。
最初の回答で提案されているように、線形回帰を試してみると、この関係について何かがわかります。このプロットにpythonとmatplotlibを使用しているように見えるので、ソリューションから1行離れたコードです。
seaborn jointplotを使用できます。これは、線形回帰線、ピアソン相関係数、およびそのp値も表示します。
sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")
ご覧のとおり、相関関係はありません。この最後のプロットを見ると、x変数を対数変換すると便利だと思われます。試してみよう:
df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")
対数変換の有無にかかわらず、相関が小さく、p値と信頼区間の両方が統計的に意味がないとはっきりとわかります。
このプロットは、中心サイズ定理のデモンストレーションとして機能します。ここでは、サンプルサイズが大きくなるにつれて、サンプル間のばらつきが減少します。また、給与のような大きく歪んだ変数で予想される形状です。