この回答では、さまざまなサンプルサイズを適切に処理する3つの方法について説明します。それは、一般化線形モデルと2つの加重通常最小二乗回帰です。この場合、3つすべてがうまく機能します。一般に、一部の比率がまたはに近い場合、GLMの方が優れています。101
標本サイズは母集団に比べて非常に小さいため(それらの10%未満)、優れた近似では、サイズサンプルにおける青い目の結果と青い目のない結果の分布は二項分布です(サンプルがランダム)。もう1つの二項パラメーターは、母集団における青い目の被験者の真の(しかし未知の)比率です。したがって、青い目の人々を観察する可能性はp knpk
( nk) pk(1 − p )n − k。(1)
10年ごとに、とはわかっています。これらはデータによって示されますが、はわかりません。対応する対数オッズが年ごとに線形に(少なくとも適切な概算で)変化すると仮定して、推定することができます。、ような数字とがあると想定します。K P P β 0 β 1んkppβ0β1
ログ(p )− ログ(1 − p )= β0+ β1× 年。
同様に、
p = 11 + e- β0- β1年; 1 − p = e - β0- β1年1 + e- β0- β1年。
これを(1)に組み込むと、与えられた年間にうちを観察する可能性があります。n tkんt
( nk) e− (β0+ β1t )(n − k )( 1 + e− (β0+ β1t ))ん。(2)
サンプルがなどの年に独立して取得され、対応するサンプルサイズと青い目の被験者の数をおよびとしてとすると、データの確率は個々の結果の確率の積になります。この積は(定義により)の可能性です。これらのパラメーターは、可能性を最大化する値として推定できます。同様に、対数尤度を最大化しますN iは、kはiが(β 0、β 1)t1、t2、 ん私k私(β0、β1)(β^0、β^1)
Λ (β0、β1)= ∑tログ(( nk) e− (β0+ β1t )(n − k )( 1 + e− (β0+ β1t ))ん)(3)
から取得。(2 )
(これは、対数オッズで時間と比例の関係を表す1つの理由である対数の規則を使用して、かなり単純化します。すべての比率がと間である場合、おおよそ、確率とその対数の使用間に定性的な違いはほとんどありません。オッズ:近似曲線はそれぞれ線形または線形に近くなります。)0.8 p0.20.8p
Λ(3 )は、二項一般化線形モデルです。数値的に最小化してフィットさせる必要があります。(この投稿の最後に示されている)の手順で解決策が得られますΛglmR
(β^0、β^1)GLM= (31.498711 、- 0.0163568 )。

この図のデータは、面積がサンプルサイズに比例するディスクでプロットされています。GLMフィットは曲線です。比較のために灰色で表示されているのは、質問に示されているデータを通常の最小二乗ソルバーにダンプするだけで得られる線です。両方の適合は、サンプルサイズが小さいにもかかわらず、初期の割合が大きくなったことにより影響を受けます。ただし、GLMフィットは、1970年と1980年に取得された最大のサンプルの比率をより適切に近似します。青い点線を以下に示します。(年、比例)
二次項を追加することにより、適合度をテストできます。GLMフィットが大幅に改善されます(視覚的には違いは大きくありません)。このモデルは結果の変動を適切に説明していないという証拠を提供します。プロットを見ると、1990年の結果がモデルの予測よりもはるかに低かったことがわかります。
別の、しかし比較可能なアプローチは、おそらくとして、各年の個別に推定することです(他の推定量が可能です)。サンプルサイズまたは加重最小二乗回帰によって重み付けされた、年に対するこれらの推定値の対数オッズの線形回帰により、tptiki/nini
(β^0,β^1)WLS=(36.12744,−0.018706).
これらの推定値の標準誤差はそれぞれとであり、WLS推定値が二項GLMと大きく異なることはありません。(ただし、GLMの標準誤差はかなり小さくなっています。これらのサンプルサイズはかなり大きいことが "認識"されていますが、線形回帰はサンプルサイズについては "まったく"認識していません。10の個別の観測のシーケンスしかありません。)または場合、確率の別の推定量が使用されない限り(または値を生成しない)、代替は使用できない場合があります。0.00787 k i = n15.550.00787ki=niki=001
最後に、サンプル分散の推定値によって逆に重み付けされた、年に対する生の確率推定値加重最小二乗回帰を単に実行します。二項の分散変数、比率として再表現である。サンプルから次のように推定できます。(n 、p )Xk/n(n,p)XX/np(1−p)/n
p(1−p)n≈knn−kn/n=k(n−k)n3.
結果は図に青い点線で表示されます。この場合、GLMとOLSの適合性の間で妥協するように見えます。
次のRコードは分析を実行し、図を生成しました。
year <- seq(1910, 2000, by=10)
total <- c(40, 200, 7, 3, 1, 14, 5000, 7000, 150, 500) * 10
blue <- c(250, 1000, 40, 14, 4, 52, 15400, 22000, 80, 800)
X <- data.frame(Year=year, Success=blue, Failure=total-blue,
Proportion=blue/total, Total=total)
#
# GLM
#
fit <- glm(cbind(Success, Failure) ~ Year, X, family="binomial")
summary(fit)
#
# WLS of the log odds (an alternative)
#
fit.WLS <- lm(log(Success/Failure) ~ Year, X, weights=Total)
summary(fit.WLS)
#
# Plot the results.
#
X.more <- data.frame(Year=1901:2010)
X.more$Prediction <- predict(fit, X.more, type="response")
plot(X$Year, X$Proportion, ylim=0:1,
type="p", pch=21, bg="Red", cex=sqrt(X$Total/2000),
xlab="Year", ylab="Proportion",
main="GLM and OLS Fits", sub="GLM: solid line; OLS: dotted line")
lines(X.more, lwd=2)
abline(lm(Proportion ~ Year, X),
lty=3, lwd=3, col="Gray") #The OLS fit
abline(lm(Proportion ~ Year, X, weights=Total^3/(Success*Failure)),
lty=3, lwd=3, col="Blue") #The weighted OLS fit to the proportions