信息熵理论
在通信系统中,信息从发送到接收的传输过程是一个有干扰的信息复制过程。
对每一个具体的应用而言,传输的信息是确定的,有明确的应用目的。
对一个通信系统而言主,不同的用户要传送的具体的信息内容是不同的,则如何从这些繁杂的具体信息中提炼出它们的共同特征,并可进行量化估计是shannon信息论研究的基础。 所谓量化估计就是用提炼的共同特征估计与某些具体内容所对应的需要传输的信息量大小。 信息量定义的另一个重要特征是它能保证信息量值的大小与具体的信息内容无关。
1.定义信息熵:
设X是一个离散的随机变量,其定义空间为一个字符集E。
pxPXx,xE,表示相应的概率分布函数,则
HXpxlogpx称为离散随机变量的熵。
x
有时记HppxlogpxElogpX p
x
Ep表示以概率分布px对某随机变量或随机函数求概率平均。
2.定义联合熵:
设X﹑Y是丙个离散的随机变量,(X,Y)的联合概率分布函数为px,yPXx,Yy,则
HX,YPx,ylogpx,y
xy
称为离散随机变量X与Y的联合熵。
有时记为:
HX,Ypx,ylogpx,yEplogpX,Y
xy
3.定义条件熵:
如果X,Y~px,y,则条件熵HY/X定义为
HY/XpxHY/Xx
x
pxpy/xlogpy/x xypx,ylogpy/x
xy
ElogpY/X
条件熵等于零的条件为pXY1
事实上,对任意的x,y都有py/xlogpy/x0,从而得py/x0或py/x1,又因为X与Y是取值空间完全相同的随机变量,所以有pY/X1
定义相对熵:设px,qx是两个不同的离散概率分布函数,则
DpqpxpxlogqxE
xpXplogqX
为概率分布函数px关于qx的相对熵。
相对熵的物理意义
相对熵反映了一个变量因取值概率的差异导致的信息量变化情况。若将px看作系统本身固有的概率分布,而qx看作人们对系统进行估计得到的经验概率分布,此时,相对熵反映了由于逼近误差引起的信息量的丢失量。
定义互信息:设X,Y是两个离散的随机变量,其联合概率分布函数为px,yPXx,Yy,相应的边沿分布密度函数为px和qx,则X与Y的互信息定义为
IX,Ypx,ypx,ylogpxpy
xy
Dpx,ypxqy
Epx,ylogpX,Y pXpY
互信息的物理意义
互信息反映了联合分布与边沿分布乘积的相对熵,也可看作利用边沿分布去逼近联合分布时所损失的信息量。
如果考虑一个通信系统,X表示发送端的输入变量,Y表示接收端的输出变量。虽然要信号的传输过程中,变量X受到一些不确定因素的干扰,而以变量Y的形式出现,显然,变量X和变量Y之间的一定的相关性,但它们的联合分布px,y与边沿分布的积pxpy是有差异的(因为后者代表了变量X与变量Y是统计独立的),这种差异可以利用信息量进行估计。IX,Y反映了它们之间的相对熵,这种相对熵也可看作是传输信道引起的联合信息量的变化量。
考虑一种特殊情况:当传输信道没有引入任何干扰,此时接收端收到的信号与发送端发送的信号完全相同,即Y=X,于是有
px,xy px,y 0,xy;
则 IX,Ypx,ypx,ylogpxpy
xy
pxlogpxHXHY
x
这表明发送端的信息完全传送到接收端而没有任何损失。
信息熵、联合熵、条件熵、相对熵和互信息的非负性
上述四个关系式表明信息熵、联合熵、条件熵、相对熵和互信息都是大于或等于零的量。
当信息熵和联合熵为零时,相应的变量以概率1取一确定的值,此时,它可以看作一常量。同时,它也表明:一个恒定的常量是不载有任何信息的。由此可以推断出一个变量所负载的信息量大小与它的变化程度有关;即一个变量所负载的信息量反映了此变量取值的不确定性。
信息熵理论
在通信系统中,信息从发送到接收的传输过程是一个有干扰的信息复制过程。
对每一个具体的应用而言,传输的信息是确定的,有明确的应用目的。
对一个通信系统而言主,不同的用户要传送的具体的信息内容是不同的,则如何从这些繁杂的具体信息中提炼出它们的共同特征,并可进行量化估计是shannon信息论研究的基础。 所谓量化估计就是用提炼的共同特征估计与某些具体内容所对应的需要传输的信息量大小。 信息量定义的另一个重要特征是它能保证信息量值的大小与具体的信息内容无关。
1.定义信息熵:
设X是一个离散的随机变量,其定义空间为一个字符集E。
pxPXx,xE,表示相应的概率分布函数,则
HXpxlogpx称为离散随机变量的熵。
x
有时记HppxlogpxElogpX p
x
Ep表示以概率分布px对某随机变量或随机函数求概率平均。
2.定义联合熵:
设X﹑Y是丙个离散的随机变量,(X,Y)的联合概率分布函数为px,yPXx,Yy,则
HX,YPx,ylogpx,y
xy
称为离散随机变量X与Y的联合熵。
有时记为:
HX,Ypx,ylogpx,yEplogpX,Y
xy
3.定义条件熵:
如果X,Y~px,y,则条件熵HY/X定义为
HY/XpxHY/Xx
x
pxpy/xlogpy/x xypx,ylogpy/x
xy
ElogpY/X
条件熵等于零的条件为pXY1
事实上,对任意的x,y都有py/xlogpy/x0,从而得py/x0或py/x1,又因为X与Y是取值空间完全相同的随机变量,所以有pY/X1
定义相对熵:设px,qx是两个不同的离散概率分布函数,则
DpqpxpxlogqxE
xpXplogqX
为概率分布函数px关于qx的相对熵。
相对熵的物理意义
相对熵反映了一个变量因取值概率的差异导致的信息量变化情况。若将px看作系统本身固有的概率分布,而qx看作人们对系统进行估计得到的经验概率分布,此时,相对熵反映了由于逼近误差引起的信息量的丢失量。
定义互信息:设X,Y是两个离散的随机变量,其联合概率分布函数为px,yPXx,Yy,相应的边沿分布密度函数为px和qx,则X与Y的互信息定义为
IX,Ypx,ypx,ylogpxpy
xy
Dpx,ypxqy
Epx,ylogpX,Y pXpY
互信息的物理意义
互信息反映了联合分布与边沿分布乘积的相对熵,也可看作利用边沿分布去逼近联合分布时所损失的信息量。
如果考虑一个通信系统,X表示发送端的输入变量,Y表示接收端的输出变量。虽然要信号的传输过程中,变量X受到一些不确定因素的干扰,而以变量Y的形式出现,显然,变量X和变量Y之间的一定的相关性,但它们的联合分布px,y与边沿分布的积pxpy是有差异的(因为后者代表了变量X与变量Y是统计独立的),这种差异可以利用信息量进行估计。IX,Y反映了它们之间的相对熵,这种相对熵也可看作是传输信道引起的联合信息量的变化量。
考虑一种特殊情况:当传输信道没有引入任何干扰,此时接收端收到的信号与发送端发送的信号完全相同,即Y=X,于是有
px,xy px,y 0,xy;
则 IX,Ypx,ypx,ylogpxpy
xy
pxlogpxHXHY
x
这表明发送端的信息完全传送到接收端而没有任何损失。
信息熵、联合熵、条件熵、相对熵和互信息的非负性
上述四个关系式表明信息熵、联合熵、条件熵、相对熵和互信息都是大于或等于零的量。
当信息熵和联合熵为零时,相应的变量以概率1取一确定的值,此时,它可以看作一常量。同时,它也表明:一个恒定的常量是不载有任何信息的。由此可以推断出一个变量所负载的信息量大小与它的变化程度有关;即一个变量所负载的信息量反映了此变量取值的不确定性。