熵相关

信息熵(entropy)

  • 自信息量
    概率越大,不确定越小:
    $$I(X=k) = \log \frac{1}{p(X=k)}$$

  • 信息熵
    描述变量的不确定性,是符号自信息量的数学期望:
    $$H(X) = \sum_{k=1}^K p(X=k) \log \frac{1}{p(X=k)}$$
    信息量的单位:bit(以2为底),Nat(以e为底),Det(以10为底)

条件熵

条件自信息量的数学期望:
$$I(x_i | y_i) = \log \frac{1}{p(x_i | y_i)}$$
$$H(X|Y) = \sum_{x,y} p(xy) \log \frac{1}{p(x|y)}$$
条件熵是用联合概率加权。

联合熵

联合自信息量的数学期望:
$$I(x_i y_i) = \log \frac{1}{p(x_i y_i)}$$
$$H(XY) = \sum_{x,y} p (xy) \log \frac{1}{p(xy)}$$

相互关系

\begin{split} H(XY) & = \sum_{x,y} p (xy) \log \frac{1}{p(xy)} \newline
& = - \sum_{x,y} p(xy) (\log p(x) + \log p(y|x)) \newline
& = - \sum_x p(x) \log p(x) \sum_y p(y|x) \quad - \sum_{x,y} p(xy) \log p(y|x) \newline
& = H(X) + H(Y|X) \newline
&s.t. \quad \sum_y p(y|x) = 1 \end{split}

互信息

事件互信息 是衡量两个事件集合之间的相关性,$Y=y_i$对$X=x_i$的互信息量定义为:
$$I(X=x_i;Y=y_i) = \log \frac{p(X=x_i|Y=y_i)}{p(X=x_i)}$$
$Y=y_i$对$X=x_i$的互信息量就是X的后验概率与先验概率比值的对数。显然有对称性:
$$I(X=x_i;Y=y_i) = I(Y=y_i;X=x_i) = \log \frac{p(X=x_i,Y=y_i)}{p(X=x_i)p(Y=y_i)}$$

变量互信息 是衡量两个变量之间的相关性,定义为:
$$I(X;Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}$$

交叉熵

定义为:
$$H(P,Q) = \sum_x P(x) \log Q(x)$$

相对熵(KL散度)

用于度量两个概率分布之间的差别,非对称,即:
$$D(P||Q) \neq D(Q||P)$$
对于不等式左边,P是真实分布,Q是P的拟合分布

定义:
\begin{split} D_{KL} (P||Q) & = \sum_x P(x) \log \frac{P(x)}{Q(x)} \newline
& = \sum_x P(x) \log P(x) - \sum_x P(x) \log Q(x) \newline
& = -H(P) + H(P,Q) \end{split}

由于对数函数是上凸函数,且 $\sum_x P(x) =1,P(x) \geq 0$ 为凸组合,用Jensen不等式可知:
\begin{split} D_{KL} (P||Q) & = \sum_x P(x) \log \frac{P(x)}{Q(x)} \newline
& = - \sum_x P(x) \log \frac{Q(x)}{P(x)} \newline
& \geq - \log \sum_x P(x) \frac{Q(x)}{P(x)} \newline
& \geq 0 \end{split}
KL散度大于等于0,当且仅当两分布相同时,等于0。