概率和信息论—下篇

概率

Posted by Wwt on March 3, 2018

信息论

信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含义噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。在这种情况下,信息论告诉我们如何设计最优编码,以及计算从一个特定的概率分布上采样得到、使用多种不同编码机制的消息的期望长度。在机器学习中,我们也可以把信息论应用在连续型变量上,而信息论中一些消息长度的解释不怎么使用。信息论是电子工程和计算机科学中许多领域的基础。在这里,我们主要使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。

信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。消息说:“今天早上太阳升起” 信息量是如此之少以至于没必要发送,但一条消息说“今天早上有日食”信息量就很丰富。

我们想要通过这种基本想法来量化信息。特别地,

  • 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件应该没有信息量。

  • 较不可能发生的事件具有更高的信息量。

  • 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。

    为了满足上述三个性质,我们定义一个事件$\mathbb{x}=x$的自信息(self-information)为

在这里,我们总是用$log$来表示自然对数,其底数为$e$。因此我们定义的$I(x)$单位是奈特(nats)。一奈特是以$\frac{1}{e}$的概率观测到一个事件时获得的信息量。

当$\mathbb{x}$是连续的,我们使用类似的关于信息的定义,但有些来源于离散形式的性质就丢失了。例如,一个具有单位密度的事件信息量仍然为0,但是不能保证它一定发生。

自信息只处理单个的输出。我们可以用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化: ​

也记作$H(P)$。换言之,一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。它给出了对依据概率分布$P$生成的符号进行编码所需的比特数在平均意义上的下界(当对数底数不是2,单位将有所不同)。那些接近确定性的分布(输出几乎可以确定)具有较低的熵;那些接近均匀分布的概率分布具有较高的熵。下图给出了一个说明。当$\mathbb{x}$是连续的,香农熵被称为微分熵(differential entropy)。

1

​ 上图中:二值随机变量的香农熵。该图说明了更接近确定性的分布是如何具有较低的香农熵,而更接近均匀的分布是如何具有较高的香农熵。水平轴是$p$,表示二值随机变量等于1的概率。熵由$(p-1)log(1-p)-plogp\quad$给出.。当$p$接近0时,分布几乎确定的,因为随机变量几乎总是0,。当$p$接近1时,分布也是确定的,因为随机变量几乎总是1.当$p=0.5$时,熵是最大的,因为分布在两个结果(0和1)上是均匀的。

如果我们对于同一个随机变量$\mathbb{x}$有两个的单独的概率分布$P(\mathbb{x})$和$Q(\mathbb{x})$,我们可以使用KL 散度(Kullback-Leibler(KL)divergence)来衡量这两个分布的差异:

在离散型变量的情况下,KL散度衡量的是,当我们使用一种被设计成能够使得概率分布$Q$产生的消息的长度最小的编码,发送包含由概率分布$P$产生的的符号的消息时,所需要的额外信息量(如果我们使用底数为2 的对数时,信息量用比特衡量,但在机器学习中,我们通常用奈特和自然底数。)

一个和KL散度密切联系的量是交叉熵(cross-entropy)$H(P,Q)=H(P)+D_{KL}(P \parallel Q)$,它和KL散度很像但是缺少左边一项:

针对$Q$最小化交叉熵等价于最小化KL散度,因为$Q$并不参与被省略的那一项。

d当我们计算这些量时,经常会遇到$0log0$这个表达式。按照惯例,在信息论中,我们将这个表达式处理为$lim_{x\rightarrow0}xlogx=0$。

结构化概率模型

机器学习的算法经常会涉及到非常多的随机变量上的概率分布。通常,这些概率分布涉及到的直接相互作用都是介于非常少的变量之间的。使用单个函数来描述整个联合概率分布是非常低效的(无论是计算上还是统计上)。

我么可以把概率分布分解成许多因子的乘积形式,而不是使用单一的函数来表示概率分布。例如,假设我们有三个随机变量$a,b$和$c$,并且$a$影响$b$的取值,$b$影响$c$的取值,但是$a$和$c$在给定$b$时是条件独立的。我们可以把全部三个变量的概率分布重新表示为两个变量的概率分布的连乘形式:

这种分解可以极大地减少用来描述一个分布的参数变量。每个因子使用的参数数目是它的变量数目的指数倍。这意味着,如果我们能够找到一种使每个因子分布具有更少变量的分解方法,我们就能极大地降低表示联合分布的成本。

我们可以用图来描述这种分解。这里我们使用的是图论中的“图”的概念:由一些可以通过边互相连接的定点的集合构成。当我们用来表示这种概率分布的分解,我们把它称为结构化概率模型(structured probabilistic model)或者图模型(graphical model)。

有两种主要的结构化概率模型:有向的和无向的。两种图模型都使用图$G$,其中图的每个节点对应着一个随机变量,连接两个随机变量的边意味着概率分布可以表示成这两个随机变量之间的直接作用。

有向(directed)模型使用带有有向边的图,它们用条件概率分布来表示分解,就像上面的例子。特别地,有向模型对应分布中的每一个随机变量$\mathbb{x}_i$都包含着一个影响因子,这个组成$\mathbb{x}_i$条件概率的影响因子被称为$\mathbb{x}_i$的父节点,记为$PaG(\mathbb{x}_i)$:

下图给出了一个有向图的例子以及它表示的概率分布的分解。

2

图示:关于随机变量$a,b,c,d$和$e$的有向图模型。这幅图对应的概率分布可以分解为

无向(undirected)模型使用带有无向边的图,它们将分解表示成一组函数;不像有向模型那样,这些函数通常不是任何类型的概率分布。$G$中任何满足两两之间有边连接的顶点的集合被称为团。无向模型中的每个团$C^{(i)}$都伴着一个因子$\phi ^{(i)}(C^{(i)})$。这些因子仅仅是函数,并不是概率分布。每个因子的输出都必须是非负的,但是并没有像概率分布中那样要求因子的和或者积分为1。

随机变量的联合概率与所有这些因子的乘积成比例(proportional)———意味着因子的值越大则可能性越大。当然,不能保证这种乘积的求和为1.所以我们需要除以一个归一化常数$Z$来得到归一化的概率分布,归一化常数$Z$被定义为$\phi$函数乘积的所有状态的求和或积分。概率分布为:

下图给出了一个无向图的例子以及它表示的概率分布的分解。

3

上图:关于随机变量$a,b,c,d$和$e$的无向图模型。这幅图对应的概率分布可以分解为

该图模型使我们能够快速看出此分布的一些性质。例如,$a$和$b$直接相互影响,但$a$和$e$只有通过$c$简介相互影响。

请记住,这些图模型表示的分解仅仅是描述概率分布的一种语言。它们不是相互排斥的概率分布族。有向或者无向不是概率分布的特性;它是概率分布的一种特殊描述所具有的特性,而任何概率分布都可以用这两种方式进行描述。

参考

来源:deep learning,部分内容有删改