1
なぜベイジアン後部はKL発散の最小化子に集中するのですか?
ベイズ事後考えてみましょθ∣Xθ∣X\theta\mid X。漸近的に、その最大値はMLE推定値で発生θだけ尤度最大化し、argminのθをθ^θ^\hat \thetaargminθfθ(X)argminθfθ(X)\operatorname{argmin}_\theta\, f_\theta(X)。 これらのすべての概念、つまり可能性を最大化するベイズの事前分布は、超原理的であり、まったく恣意的ではありません。ログが見えません。 しかし、MLEは、実際の分布とのKLダイバージェンスを最小限に抑えf~f~\tilde fとfθ(x)fθ(x)f_\theta(x)すなわち、それは最小限に抑え、 KL(f~∥fθ)=∫+∞−∞f~(x)[logf~(x)−logfθ(x)]dxKL(f~∥fθ)=∫−∞+∞f~(x)[logf~(x)−logfθ(x)]dx KL(\tilde f \parallel f_\theta) = \int_{-\infty}^{+\infty} \tilde f(x) \left[ \log \tilde f(x) - \log f_\theta(x) \right] \, dx うわー、これらのログはどこから来たのですか?特にKLの相違はなぜですか? たとえば、異なる発散を最小化することが、ベイジアン後任者の超原理的で動機付けられた概念に対応せず、上記の可能性を最大化しないのはなぜですか? このコンテキストでは、KLの相違やログについて特別なことがあるようです。もちろん、私たちは空中に手を投げて、それがまさに数学がそうであると言うことができます。しかし、明らかにするために、より深い直感やつながりがあるのではないかと思います。