2
なぜ公平性が一貫性を意味しないのですか
Ian Goodfellowらによる深層学習を読んでいます。として導入します。 ここで、とはそれぞれ推定パラメーターと基になる実パラメーターです。Bias(θ)=E(θ^)−θBias(θ)=E(θ^)−θBias(\theta)=E(\hat\theta)-\thetaθ θθ^θ^\hat\thetaθθ\theta 一方、一貫性はによって定義され ます。これは、場合、 aslimm→∞θ^m=θlimm→∞θ^m=θ\mathrm{lim}_{m\to\infty}\hat\theta_m=\thetaϵ>0ϵ>0\epsilon > 0P(|θ^m−θ|>ϵ)→0P(|θ^m−θ|>ϵ)→0P(|\hat\theta_m-\theta|>\epsilon)\to0m→∞m→∞m\to\infty 次に、一貫性は公平性を意味しますが、その逆は意味しません: 一貫性により、データ例の数が増えるにつれて、推定量によって生じるバイアスが確実に減少します。ただし、その逆は当てはまりません。漸近的な不偏性は一貫性を意味しません。たとえば、m個のサンプルで構成されるデータセットを使用して、正規分布N(x;μ、σ2)の平均パラメーターμを推定することを検討してください:。データセットの最初のサンプルを不偏推定量として使用できます:\hatθ= x ^ {(1)}。その場合、E(\ hatθ_m)=θなので、データポイントがいくつ表示されても、推定量は不偏です。もちろん、これは推定値が漸近的に不偏であることを意味します。ただし、これは\hatθ_m→θが次のような場合ではないため、一貫した推定量ではありません。バツ(1 )、。。。、x(m )x(1),...,x(m){x^{(1)}, . . . , x^{(m)}}バツ(1 )x(1)x^{(1)}θ = X (1 ) E( θ M)= θ θ M → θ M→ ∞θ^= x(1 )θ^=x(1)\hatθ = x^{(1)}E(θ^メートル)= θE(θ^m)=θE(\hat θ_m) = θθ^メートル→ θθ^m→θ\hatθ_m → θm → ∞m→∞m …