P-PCA

数据生成背景

根据白板推导我们已经知道，高斯混合模型有两种理解方式：几何角度**(非概率版本)和生成角度(概率版本)**。

模型的生成方式是：先选定一个高斯分布，再根据这个高斯分布的PDF生成数据点。所以高斯混合模型默认隐变量是离散的。而P-PCA隐变量是均值为0，方差为1的高斯分布。

概率版本与非概率版本的区别在于隐变量的分布

原先的隐变量为离散 --> 连续性（满足某个概率分布）

隐变量的分布情况

上图中左部分是传统的GMM模型，把三个独立的高斯分布根据权重拟合成一个混合的高斯分布。而右图中有无穷多个高斯分布，若选择 $z$ 均值附近被选中的概率非常高，所以拟合出的分布这里会非常高。

算法理论部分

已知: $p(x)$ $p(x|z)$ $p(z)$

隐变量服从零均值单位协方差 $p(z) \sim \N(z|0,I)$
观测变量 $x$ 的生成方式： $x = Wz + \mu + \varepsilon$
$p(x|z) \sim \N(Wz+\mu,\sigma^2\cdot I)$
$p(x)$ 也是高斯分布，原因在于： $p(x) = \int_zp(x|z)p(z)dz$

推导 $x$ 的PDF：

$x \sim N(x|\mu,WW^T+\sigma^2I)$

分析：

$\begin{aligned} E[x] =& E[Wz+\mu+\varepsilon]=\mu \\ cov[x] =& E[(x-E[x])(x-E[x])^T] \\ =& E[(Wz+\varepsilon)(Wz+\varepsilon)^T] \\ =& E[Wzz^TW^T+\varepsilon z^TW^T+Wz\varepsilon^T+\varepsilon\varepsilon^T] \\ =& WIW^T\cdot D(z) +D(\varepsilon) \\ =& WW^T + \sigma^2 I \end{aligned}$

其中： $z$ 和 $\varepsilon$ 是独立的。 $E(z\cdot \varepsilon^T) = E(z)E(\varepsilon)=0$

也可以直接利用方差的性质：

$\begin{aligned} Var[x] = & Var[Wz+\mu+\varepsilon]\\ = & Var[Wz]+Var[\varepsilon] \\ = & W\cdot I \cdot W^T + \sigma^2I \end{aligned}$

对于求解 $p(z|x)$ 比较难：

首先联合概率分布的PDF：

性质：

$\begin{aligned} x_{b\cdot a} = & x_b -\Sigma_{ba}\Sigma_{aa}^{-1}x_a \\ \mu_{b\cdot a} = & \mu_b - \Sigma_{ba}\Sigma_{aa}^{-1}\mu_a \\ \Sigma_{bb\cdot a}= & \Sigma_{bb} - \Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \\ x_{b\cdot a} \sim & N(\mu_{b\cdot a},\Sigma_{bb\cdot a}) \end{aligned}$

又： $x_b = x_{b\cdot a} + \Sigma_{ba}\Sigma_{aa}^{-1}x_a$

$\begin{aligned} E[x_b|x_a] = &E[x_{b\cdot a }]+ \Sigma_{ba}\Sigma_{aa}^{-1}x_a \\ = &\mu_{ba} + \Sigma_{ba}\Sigma_{aa}^{-1}x_a \\ = &\mu_b + \Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a) \\ Var[x_b|x_a] = & Var[x_{b\cdot a}]+0 = \Sigma_{bb\cdot a} \end{aligned}$

上面介绍完性质：直接套用

$\left( \begin{array}{c} x\\ z\\ \end{array} \right) \sim N\left( \begin{matrix} \left[ \begin{array}{c} \mu\\ 0\\ \end{array} \right]& \left[ \begin{matrix} WW^T+\sigma ^2I& W\\ W& I\\ \end{matrix} \right]\\ \end{matrix} \right)$

其中：

$\begin{aligned} cov(x,z) =& E[(x-\mu)(z-0)^T] \\ =& E[(Wz+\varepsilon)z^T] \\ =& E[Wzz^T]+E[\varepsilon\cdot z^T] \\ =& W \cdot I = W \end{aligned}$

白板书推导：

$p(z|x) \sim N(W^T(WW^T+\sigma^2I)^{-1}(x-\mu),I-W^T(WW^T+\sigma^2I)^{-1}W)$

PRML：

$M = W^TW + \sigma^2I$

$P(z|x) \sim N(z|M^{-1}W^T(x-\mu),\sigma^2M^{-1})$

根据矩阵的求逆公式：

$(P^{-1}+B^TR^{-1}B)^{-1}B^TR^{-1} = PB^T(BPB^T+R)^{-1}$

可以证明上面白板书推导出的公式和PRML给出的公式是等价的。

EM算法

其中需要估计的参数是： $W,\mu,\sigma^2$

Likelihood

$\begin{aligned} lnp({X}|W,\mu,\sigma^2) = & \sum_{n=1}^N lnp(x_n|W,\mu,\sigma^2)\\ = & -\frac{ND}{2}ln(2\pi) - \frac{N}{2}ln|\Sigma|-\frac{1}{2}\sum_{n=1}^N (x_n-\mu)^T\Sigma^{-1}(x_n-\mu) \\ = & -\frac{N}{2}\{ Dln(2\pi)+ln|\Sigma|+Tr(\Sigma^{-1}S\} \end{aligned}$

常规：MLE求极值能得到近似封闭解

Joint Likelihood

$\begin{aligned} lnp(X,Z|W,\mu,\sigma^2) = & \sum_{n=1}^N\{lnp(x_n|z_n)+lnp(z_n)\} \\ E[lnp(x,z|W,\mu,\sigma^2)] = & -\sum_{n=1}^N\{\frac{D}{2}ln(2\pi\sigma^2) +\frac{1}{2}Tr(E[z_nz_n^T])+ \\ &\frac{1}{2\sigma^2}\|x_n-\mu\|^2-\frac{1}{\sigma^2}{E[z_n]^TW^T(x_n-\mu)+\frac{1}{2\sigma^2}Tr(E[z_nZ_n^T]W^TW)+\frac{M}{2}ln(2\pi)}\} \end{aligned}$

其中，涉及需要估计充分统计量，需要依赖后验概率

E步：

$\begin{aligned} E_{z|x}[z_n] = & M^{-1}W^T(x_n-\bar{x}) \\ E_{z|x}[z_nz_n^T] = & cov[z_n] + E[z_n]E[z_n]^T \\ = & \sigma^2M^{-1}+E[z_n]E[z_n]^T \end{aligned}$

M步：固定后验概率，即充分统计量固定(看作常数)

首先明确更新的变量为： $\sigma^2$ 和 $W$

举例说明： $\frac{\partial\Delta}{\partial W}$

$\Delta = -\sum_{n=1}^N\{-\frac{1}{\sigma^2}E[z_n]^TW^T(x_n-\mu)+\frac{1}{2\sigma^2}Tr(E[z_nz_n^T]W^TW)\}$

为了方便求导，利用迹的性质：

$Tr(ABC) = Tr(BCA) = Tr(CAB)$

故上面公式中：

$Tr(E[z_nz_n^T]W^TW) = Tr(W^TWE[z_nz_n^T])$

拉格朗日求导：

$\frac{\partial\Delta}{\partial W} = \sum_{n=1}^N\{-\frac{1}{\sigma^2}E[z_n]^T(x_n-\mu)+\frac{1}{2\sigma^2}2WE[z_nz_n^T]\} = 0$

可以推出：

$W_{new} = [\sum_{n=1}^NE[z_n]^T(x_n-\mu)][\sum_{n=1}^NE[z_nz_n^T]]^{-1}$

同理可得：(这里具体推导省略)

$\hat{\sigma}_{new}=\frac{1}{ND}\sum_{n=1}^N\{\|x_n-\bar{x}\|-2E[z_n]^TW_{new}^T(x_n-\bar{x})+Tr(E[z_nz_n^T]W_{new}^TW_{new}) \}$