青い目の火星人の人口は減少していますか？

20世紀を通じて青い目の武術家の割合が減少しているという仮説を検証したいとします。残念ながら、火星の人口は大きく変動するため、10年ごとに総人口に大きな違いがあります[更新：火星の人口は10億の火星で一定であると考えてください。以下のデータは、毎年ランダムなサンプルです]。（私がこれを書いているときに作成された）データセットは次のようになります：

Year | Total martian population | Blue-eyed martians | Proportion
1910 | 400                      | 250                | 0.625
1920 | 2000                     | 1000               | 0.500
1930 | 70                       | 40                 | 0.571
1940 | 30                       | 14                 | 0.467
1950 | 10                       | 4                  | 0.400
1960 | 140                      | 52                 | 0.371
1970 | 50 000                   | 15 400             | 0.308
1980 | 70 000                   | 22 000             | 0.314
1990 | 1500                     | 80                 | 0.053
2000 | 5000                     | 800                | 0.160

火星の人口が100歳未満の年を分析することは、人口が1万人を超える場合ほど統計的に意味がありません。後者の場合、より大きなデータセットがあるためです。それでも、利用可能なすべてのデータを使用して、従来の95％の有意水準で仮説を検証します。

どのように進めますか？当時のサンプルのサイズに応じて、毎年の重要性に重みを付けていますか？

懸念事項に合わせてさらに編集：ここでの懸念事項は、各データセットがこのように異なるサイズであることを念頭に置いて、各データセットに適切に重み付けする方法です。データはランダムに選択されるため、サンプルのバイアスはありません。

hypothesis-testing

— シド
ソース

青目である確率は時間の関数である二項モデルなどの時間モデルを選択する必要があります。たとえば、時定数指数が減少するなどです。次に、仮説検定の理論により、帰無仮説「は無限」に対して仮説「は有限」を伝えるための基準を導出する必要があります。推定量を導出することもできます。

T

$T$

T

$T$

T

$T$

T

$T$

— Yves Daoust、2014

これは少し異常です。私（数学の mod）はこれをここに移行しましたが、広すぎるため拒否されました（元々2つの質問があったため）。拒絶はそれを数学に戻し、そこで再開された。OPが編集しました。ここに再度移行しました。私が間違っている場合は、知らせてください。

— davidlowryduda 2014

「20世紀を通じて減少する」という表現は曖昧すぎて、仮説の検証ができません。さまざまな方法でそれを解釈することができます。1）「各比率は前の比率よりも低くなければならない」として、ここでは明らかに満たされていない条件。2）「2000年の値は1910年の値よりも小さくなければならない」として満たされている。3）「ロジスティック回帰の時間変数には負の係数が存在します（1910年には青い目が250個、その他は150個あります。1920年には1000、1000など）」

— rolando2

この回答では、さまざまなサンプルサイズを適切に処理する3つの方法について説明します。それは、一般化線形モデルと2つの加重通常最小二乗回帰です。この場合、3つすべてがうまく機能します。一般に、一部の比率がまたはに近い場合、GLMの方が優れています。 $0$ $1$

標本サイズは母集団に比べて非常に小さいため（それらの10％未満）、優れた近似では、サイズサンプルにおける青い目の結果と青い目のない結果の分布は二項分布です（サンプルがランダム）。もう1つの二項パラメーターは、母集団における青い目の被験者の真の（しかし未知の）比率です。したがって、青い目の人々を観察する可能性は $n$ $p$ $k$

\begin{matrix} (1) & (\binom{n}{k}) p^{k} (1 - p)^{n - k} . \end{matrix}

$\binom{n}{k}p^k(1-p)^{n-k}.\tag{1}$

10年ごとに、とはわかっています。これらはデータによって示されますが、はわかりません。対応する対数オッズが年ごとに線形に（少なくとも適切な概算で）変化すると仮定して、推定することができます。、ような数字とがあると想定します。 $n$ $k$ $p$ $p$ $\beta_0$ $\beta_1$

\log (p) - \log (1 - p) = β_{0} + β_{1} \times Year .

$\log(p) - \log(1-p) = \beta_0 + \beta_1 \times \text{Year}.$

同様に、

p = \frac{1}{1 + e^{- β_{0} - β_{1} Year}}; 1 - p = \frac{e^{- β_{0} - β_{1} Year}}{1 + e^{- β_{0} - β_{1} Year}} .

$p = \frac{1}{1 + e^{-\beta_0-\beta_1\text{Year}}};\ 1-p = \frac{ e^{-\beta_0-\beta_1\text{Year}}}{1 + e^{-\beta_0-\beta_1\text{Year}}}.$

これを（1）に組み込むと、与えられた年間にうちを観察する可能性があります。 $k$ $n$ $t$

\begin{matrix} (2) & (\binom{n}{k}) \frac{e^{- (β_{0} + β_{1} t) (n - k)}}{{(1 + e^{- (β_{0} + β_{1} t)})}^{n}} . \end{matrix}

$\binom{n}{k} \frac{e^{-(\beta_0+\beta_1t)(n-k)}}{\left(1 + e^{-(\beta_0+\beta_1t)}\right)^n}.\tag{2}$

サンプルがなどの年に独立して取得され、対応するサンプルサイズと青い目の被験者の数をおよびとしてとすると、データの確率は個々の結果の確率の積になります。この積は（定義により）の可能性です。これらのパラメーターは、可能性を最大化する値として推定できます。同様に、対数尤度を最大化します $t_1, t_2,$ $n_i$ $k_i$ $(\beta_0, \beta_1)$ $(\hat\beta_0, \hat\beta_1)$

\begin{matrix} (3) & Λ (β_{0}, β_{1}) = \sum_{t} \log ((\binom{n}{k}) \frac{e^{- (β_{0} + β_{1} t) (n - k)}}{{(1 + e^{- (β_{0} + β_{1} t)})}^{n}}) \end{matrix}

$\Lambda(\beta_0,\beta_1) = \sum_t \log\left(\binom{n}{k} \frac{e^{-(\beta_0+\beta_1t)(n-k)}}{\left(1 + e^{-(\beta_0+\beta_1t)}\right)^n}\right)\tag{3}$

から取得。 $(2)$

（これは、対数オッズで時間と比例の関係を表す1つの理由である対数の規則を使用して、かなり単純化します。すべての比率がと間である場合、おおよそ、確率とその対数の使用間に定性的な違いはほとんどありません。オッズ：近似曲線はそれぞれ線形または線形に近くなります。） $0.2$ $0.8$ $p$

$(3)$ は、二項一般化線形モデルです。数値的に最小化してフィットさせる必要があります。（この投稿の最後に示されている）の手順で解決策が得られます $\Lambda$ glmR

({\hat{β}}_{0}, {\hat{β}}_{1})_{GLM} = (31.498711, - 0.0163568) .

$(\hat\beta_0, \hat\beta_1)_\text{GLM} = (31.498711, -0.0163568).$

この図のデータは、面積がサンプルサイズに比例するディスクでプロットされています。GLMフィットは曲線です。比較のために灰色で表示されているのは、質問に示されているデータを通常の最小二乗ソルバーにダンプするだけで得られる線です。両方の適合は、サンプルサイズが小さいにもかかわらず、初期の割合が大きくなったことにより影響を受けます。ただし、GLMフィットは、1970年と1980年に取得された最大のサンプルの比率をより適切に近似します。青い点線を以下に示します。 $(\text{Year},\text{Proportion})$

二次項を追加することにより、適合度をテストできます。GLMフィットが大幅に改善されます（視覚的には違いは大きくありません）。このモデルは結果の変動を適切に説明していないという証拠を提供します。プロットを見ると、1990年の結果がモデルの予測よりもはるかに低かったことがわかります。

別の、しかし比較可能なアプローチは、おそらくとして、各年の個別に推定することです（他の推定量が可能です）。サンプルサイズまたは加重最小二乗回帰によって重み付けされた、年に対するこれらの推定値の対数オッズの線形回帰により、 $p$ $t_i$ $k_i / n_i$ $n_i$

({\hat{β}}_{0}, {\hat{β}}_{1})_{WLS} = (36.12744, - 0.018706) .

$(\hat\beta_0, \hat\beta_1)_\text{WLS} = (36.12744, -0.018706).$

これらの推定値の標準誤差はそれぞれとであり、WLS推定値が二項GLMと大きく異なることはありません。（ただし、GLMの標準誤差はかなり小さくなっています。これらのサンプルサイズはかなり大きいことが "認識"されていますが、線形回帰はサンプルサイズについては "まったく"認識していません。10の個別の観測のシーケンスしかありません。）または場合、確率の別の推定量が使用されない限り（または値を生成しない）、代替は使用できない場合があります。 $15.55$ $0.00787$ $k_i=n_i$ $k_i=0$ $0$ $1$

最後に、サンプル分散の推定値によって逆に重み付けされた、年に対する生の確率推定値加重最小二乗回帰を単に実行します。二項の分散変数、比率として再表現である。サンプルから次のように推定できます。 $k/n$ $(n,p)$ $X$ $X/n$ $p(1-p)/n$

p (1 - p) n \approx \frac{k}{n} \frac{n - k}{n} / n = \frac{k (n - k)}{n^{3}} .

$p(1-p)n \approx \frac{k}{n}\frac{n-k}{n}/n = \frac{k(n-k)}{n^3}.$

結果は図に青い点線で表示されます。この場合、GLMとOLSの適合性の間で妥協するように見えます。

次のRコードは分析を実行し、図を生成しました。

year <- seq(1910, 2000, by=10)
total <- c(40, 200, 7, 3, 1, 14, 5000, 7000, 150, 500) * 10
blue <- c(250, 1000, 40, 14, 4, 52, 15400, 22000, 80, 800)
X <- data.frame(Year=year, Success=blue, Failure=total-blue,
                Proportion=blue/total, Total=total)
#
# GLM
#
fit <- glm(cbind(Success, Failure) ~ Year, X, family="binomial")
summary(fit)
#
# WLS of the log odds (an alternative)
#
fit.WLS <- lm(log(Success/Failure) ~ Year, X, weights=Total)
summary(fit.WLS)
#
# Plot the results.
#
X.more <- data.frame(Year=1901:2010)
X.more$Prediction <- predict(fit, X.more, type="response")
plot(X$Year, X$Proportion, ylim=0:1,
     type="p", pch=21, bg="Red", cex=sqrt(X$Total/2000),
     xlab="Year", ylab="Proportion",
     main="GLM and OLS Fits", sub="GLM: solid line; OLS: dotted line")
lines(X.more, lwd=2)
abline(lm(Proportion ~ Year, X), 
       lty=3, lwd=3, col="Gray") #The OLS fit
abline(lm(Proportion ~ Year, X, weights=Total^3/(Success*Failure)), 
       lty=3, lwd=3, col="Blue") #The weighted OLS fit to the proportions

— whuber
ソース