熵 Entropy 的定义
离散型随机变量 X (字母表为 X,概率函数 p(x)=Pr(X=x),x∈X),entropy 熵定义为:
H(X)=−x∈X∑p(x)logp(x)=−Elogp(x)
- 0log0→0 (x 趋近于 0,xlogx 趋近于 0 )
- H(X)≥0
- 当 X 是在 X 服从均匀分布时,H(X)=log∣X∣
- Hb(X)=logbaHa(X) - 算法/定义中的对数如果以 b 为底,熵记作 Hb(X) - 以 2 为底,单位为 bits - 以自然常数 e 为底,单位为 nats
(衡量信息量大小,不确定性大小)
例子
二进制熵函数
Let X={1xwith probablity pwith probability 1−p
系统的熵: H(x)=−plogp−(1−p)log(1−p) ,关系如下:
性质
说明:
- 凹函数(凹向下)的性质
- 这里的 λ1,λ2,⋯ 取值都是 ∣X∣1
- 当且仅当,均匀分布取到最大熵 (均匀分布最大化离散熵)
根据熵的定义,它只由概率分布确定,根据概率分布,可以得到联合熵、条件熵,链式法则。
概率统计中的法则
链式法则:p(x1,x2,⋯,xn)=p(xn)p(xn−1∣xn)⋯p(x1∣x2,⋯,xn−1)
贝叶斯规则:p(y)p(x∣y)=p(x)p(y∣x)
联合熵 Joint Entropy
条件熵 Conditional Entropy
- 条件熵 H(Y∣X) 是,在 p(Y∣X=x) 上定义的熵,对 x 取加权平均;或者直接根据期望计算。
- 根据期望计算时,使用的是 p(x,y)
例子
- 条件熵不可交换变量的位置
- H(X∣Y)+H(Y)=H(Y∣X)+H(X)=H(X,Y)
- 可以根据定义的期望公式证明,参考下面的链式法则
- 可以从信息的不确定性来理解
链式法则
零熵 Zero Entropy
说明:如果熵 H(X)=0 ,对于离散变量 X,其概率分布只有一个取值 Pr(X=x0)=1
- 由 H(Y∣X)=0⟹H(Y∣X=x)=0 ,根据它的定义容易得到;
- 由 H(Y∣X=x)=0,容易知道 Y 在 X=x 下只有一个确定的取值;
- Y 是 X 的函数。
相对熵 Relative Entropy
相对熵:用来度量两个概率分布的距离
相对熵 (Kullback-Leibler(KL)距离) ,在字母表 X 上的两个概率分布函数 p(x),q(x) 的 KL 距离定义为:
D(p∥q)=x∈X∑p(x)logq(x)p(x)=Eplogq(X)p(X)
说明:
Not Metric
相对熵不是一种 Metric 测度
互信息,用来衡量两个随机变量的关联程度(相互拥有的信息量),使用相对熵【p(x,y) 与 p(x)p(y)】来定义:
- 互信息的两个变量可以交换位置
- 两个相互独立的互信息为 0;同一个变量的互信息为它的熵
- 互信息 I(X;Y) 中,使用分号
;
分隔两个变量
Venn 图
使用 Venn 图理解多个信息量的度量
多个变量的链式法则
条件互信息
为了描述在变量 Z 给定条件下,变量 X,Y 的互信息量(符号中 ∣Z 是整体,表示条件 Z)
条件相对熵
条件相对熵和相对熵的链式法则:
链接
欢迎任何与文章内容相关并保持尊重的评论😊 !