《信息论与编码》课程笔记(四)——互信息、数据处理定理

上一次讲了信息熵、联合熵、条件熵的概念、关系和性质。这次我们引入互信息的概念。

一、互信息的概念与性质

1、互信息量:

(1)概念:

两个随机事件之间的互信息定义为,已知一个事件,对另一个事件不确定性的削减量。例如,我们现在已知一个事件 x_i ,在这个前提下,另一个事件 y_j 的不确定性(信息量)就受到了削减。同样,已知事件 y_j ,事件 x_i 的不确定性(信息量)也会受到削减。这两个削减量是相等的,我们把这个削减量称为两个事件之间的互信息,记作 I(x_i;y_j)

前面的文章中,我们提到了条件自信息 I(x_i|y_j) 的概念。条件自信息 I(x_i|y_j) 表示已知事件 Y_j 的前提下,事件 x_i 仍然剩下的不确定性。 因此 I(x_i;y_j) I(x_i|y_j) 不同,前者表示削减量,后者表示剩余量

很明显有这样的关系: 削减量=总量-剩余量 ,即有:

I(x_i;y_j)=I(x_i)-I(x_i|y_j)=log\frac{p(x_i|y_j)}{p(x_i)} .

(2)性质:

  • 对称性 I(x_i;y_j)=I(y_j;x_i)
  • 当两个事件相互独立时,其 互信息量为0
  • 互信息量可正、可负、可为零 。为负的时候不表示削减量,表示增加量。

2.平均互信息量:

(1)概念:

在上一篇中,我们从自信息上升到了熵。这里也一样,互信息量表示的是随机事件之间的关系,我们这里对其取平均,即得到了平均互信息量的概念。

平均互信息量描述的是两个随机变量之间的关系,表示在已知一个随机变量 Y 的前提下,对另外一个随机变量 X 不确定性的削减量,记作 I(X;Y) 。这与前面的互信息量是完全相同的,只是从随机事件上升到了随机变量的范畴。

与互信息量相同,平均互信息量也有这样的关系:

I(X;Y)=H(X)-H(X|Y)=\sum_{i=1}^{n}{\sum_{j=1}^{m}{p(x_iy_j)log\frac{p(x_i|y_j)}{p(x_i)}}} .

(2)意义:

通常情况下,两个随机变量之间的平均互信息可以用来描述发送和接受信息双方沟通信息的效率。如果用 H(X) 表示发送方的不确定度,用 H(Y) 表示接收方接收消息的不确定度,则 I(X;Y) 可以表示接收方收到发送方的消息之后,其不确定度的 削减量 H(X|Y) 表示已知接收方的信息,发送方信息仍存的不确定度,称为 疑义度 H(Y|X) 表示已知发送方信息,接收方信息仍存的不确定度,称为 噪声熵

如下图所示:

图4-1 几种熵之间的关系

可以看出,当 X Y 相互独立时, I(X;Y)=0 , H(X|Y)=H(X) ,此时已知接收方接收到的信息 Y ,并不能对接收方的信息 X 进行任何削减,这就相当于没有传递任何信息,因此称为 全损离散信道

如果 X Y 是确定的一一对应函数,那么已知 Y 就可以获得所有 X 的信息( X 的不确定度为0),这时削减量等于总体量,有 H(X;Y)=H(X) ,疑义度、噪声熵均为零,这时传递的信息是完全的,这个信道称为 无扰离散信道

(3)性质:

平均互信息具有这样的性质:

  • 对称性 I(X;Y)=I(Y;X)
  • 非负性 I(X;Y)\geq 0 。平均互信息是从平均的意义上说,因此不会出现小于0的情况。
  • 极值性 I(X;Y)\leq H(X),I(Y;X)\leq H(Y) .削减量不会超过总量。
  • 与熵的关系 I(X;Y)=H(X)+H(Y)-H(XY)

具体关系如下图所示:

图4-2 平均互信息和熵之间的关系
  • 对于固定的信道,平均互信息 I(X;Y) 是信源概率分布 p(x) 的上凸函数。证明略
  • 对于固定的信源,平均互信息 I(X;Y) 是信道传递概率分布 p(y|x) 的下凸函数。证明略

二、条件互信息、联合互信息与数据处理定理

1.条件互信息:

在已知事件 z_k 的前提下, x_i y_j 之间的互信息量称为条件互信息,记作 I(x_i;y_j|z_k)=log\frac{p(x_i|y_jz_k)}{p(x_i|z_k)} .

2.联合互信息:

事件 x_i 与联合事件 y_jz_k 之间的互信息量称为联合互信息,记作 I(x_i;y_jz_k)=log\frac{p(x_i|y_jz_k)}{p(x_i)} .

同理,平均条件互信息和平均联合互信息就是对原来的互信息取数学期望,即

I(X;Y|Z)=\sum_{x}^{}{\sum_{y}^{}{\sum_{z}^{}{p(x_iy_jz_k)log\frac{p(x_i|y_jz_k)}{p(x_i|z_k)}}}}

I(X;YZ)=\sum_{x}^{}{\sum_{y}^{}{\sum_{z}^{}{p(x_iy_jz_k)log\frac{p(x_i|y_jz_k)}{p(x_i)}}}}

3.三元变量互信息与熵之间的关系:

如下图所示,互信息与熵之间存在这样的关系。一般有这样的规则:圆圈的重叠部分表示互信息。以谁为条件就不包含谁。

图4-3 三元变量互信息之间的关系

由图,我们可以得到这样的关系:

I(X;YZ)=I(X;Y)+I(X;Z|Y) .

可以直观看出, I(X;YZ) 表示标号为2、3、4的部分, I(X;Y) 表示标号为2、3的部分, I(X;Z|Y) 表示标号为4的部分。

此外,还有如下关系:(看图理解)

图4-4 三元互信息的一些关系

4.数据处理定理:

如下图所示,有这样一个二级处理系统:首先输入信息 X ,然后这个信息经过第一级处理器(第一个信道)处理,得到了信息 Y ,之后信息 Y 再次经过第二级处理器(第二个信道)处理,输出结果 Z

图4-5 二级处理器

对于这样一个二级处理器,如果 Y 已知,则 X Z 是相互独立的,即 I(X;Z|Y)=0 .

因为 I(X;Z)=I(X;Y)+I(X;Z|Y)-I(X;Y|Z)=I(X;Y)-I(X;Y|Z) .

所以 I(X;Z)\leq I(X;Y) ,同理有 I(X;Z)\leq I(Y;Z) ,这就是数据处理定理。

即:对原信息处理的次数越多,结果与原信息的互信息越小,也即输入给输出提供的信息量越少。因此, 在对信息进行多级处理的时候,每多处理一次,就会多损失一部分信息

发布于 2021-04-11 19:26

文章被以下专栏收录