解析的に求められない事後分布 pθ(z∣x) の良い近似となる q(z∣x) を求める.
対数周辺尤度 logpθ(x) を変形していく.
logpθ(x)=log[∫pθ(x,z)dz]=log[∫qϕ(z∣x)qϕ(z∣x)pθ(x,z)dz]
ここで, ∫qϕ(z∣x)dz=1 が成立.
∫g(x)dx=1 となる凸関数 g(x) で成り立つイエンセンの不等式
∫−∞∞f(y(x))g(x)dx≥f(∫−∞∞y(x)g(x)dx)
を用いて,
log[∫qϕ(z∣x)qϕ(z∣x)pθ(x,z)dz]≥∫qϕ(z∣x)log(qϕ(z∣x)pθ(x,z))dz=Eqϕ(z∣x)[−logqϕ(z∣x)+logpθ(x,z)]=−KL(qϕ(z∣x)∣∣pθ(z))+Eqϕ(z∣x)[logpθ(x∣z)]
不等式の左辺と右辺の差は
logpθ(x)−∫qϕ(z∣x)log(qϕ(z∣x)pθ(x,z))dz=∫qϕ(z∣x)logpθ(x)dz−∫qϕ(z∣x)log(qϕ(z∣x)pθ(x,z))dz=∫qϕ(z∣x)logpθ(x,z)pθ(x)qϕ(z∣x)dz
ベイズの定理 pθ(x,z)=pθ(z∣x)pθ(x) より,
∫qϕ(z∣x)logpθ(x,z)pθ(x)qϕ(z∣x)dz=∫qϕ(z∣x)logpθ(z∣x)pθ(x)pθ(x)qϕ(z∣x)dz=∫qϕ(z∣x)logpθ(z∣x)qϕ(z∣x)dz=KL(qϕ(z∣x)∣∣pθ(z∣x))
となる.
よって,不等辺の右辺が大きくなれば,事後分布 pθ(z∣x) と事後分布の近似 qϕ(z∣x) のKL-divergenceを小さくすることができる.
以上より,
logpθ(x)=KL(qϕ(z∣x)∣∣pθ(z∣x))−KL(qϕ(z∣x)∣∣pθ(z))+Eqϕ(z∣x)[logpθ(x∣z)]
であるので
−KL(qϕ(z∣x)∣∣pθ(z))+Eqϕ(z∣x)[logpθ(x∣z)]
を最大化するよう学習させる. pθがDecoder, qϕがEncoderである.
符号を反転することによってVAEの損失関数である
L=KL(qϕ(z∣x)∣∣pθ(z))−Eqϕ(z∣x)[logpθ(x∣z)]
を得ることができる.
たぶんあってる.