信息论基础 / Information Theory

10.1 信息度量基础

10.1.1 自信息 (Self-Information)

一个随机事件 $x_i$ 发生所带来的信息量定义为:

$$I(x_i) = \log_b \frac{1}{P(x_i)} = -\log_b P(x_i) \quad \text{(bit / nat / hartley)}$$

当 $b=2$ 时单位为比特 (bit),$b=e$ 时为奈特 (nat),$b=10$ 时为哈特莱 (hartley)。显然,概率越小的事件携带的信息量越大。

10.1.2 信息熵 (Entropy)

离散无记忆信源 $X$ 的平均信息量——熵:

$$H(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i) \quad \text{(bit/symbol)}$$

熵的性质:

  • 非负性:$H(X) \geq 0$
  • 最大熵:等概分布时 $H(X) = \log_2 n$
  • 极值性:$H(X) \leq \log_2 n$
  • 可加性:联合熵 $H(X,Y) = H(X) + H(Y|X)$

工程意义:熵表示信源的平均不确定性,也是无损压缩的理论下限——无论采用何种编码方案,平均码长不可能低于 $H(X)$。

10.1.3 互信息 (Mutual Information)

$$I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = \sum_{x,y} P(x,y) \log_2 \frac{P(x,y)}{P(x)P(y)}$$

互信息度量了观测 $Y$ 后对 $X$ 不确定性的消除量。在通信系统中,$I(X;Y)$ 代表信道传输的有效信息量。

flowchart LR
    subgraph N0
        HX["H(X)"]
        HY["H(Y)"]
        HXY["H(X,Y)"]
    end
    style N0 fill:#1a1a2e,color:#fff,stroke:#e94560
    style HX fill:#16213e,color:#fff
    style HY fill:#16213e,color:#fff
    style HXY fill:#16213e,color:#fff

10.1.4 各信息量关系

公式量纲工程含义
自信息 $I(x_i)$$-\log_2 P(x_i)$bit单个符号的信息量
熵 $H(X)$$E[-\log_2 P(X)]$bit/symbol信源平均信息量
条件熵 $H(X|Y)$$E[-\log_2 P(X|Y)]$bit/symbol观测后残余不确定性
互信息 $I(X;Y)$$H(X)-H(X|Y)$bit/symbol信道传输信息量

10.2 信道容量与香农公式

10.2.1 信道容量 (Channel Capacity)

信道容量定义为互信息的最大值:

$$C = \max_{P(x)} I(X;Y) \quad \text{(bit/symbol)}$$

对于连续信道,信道容量单位为 bit/s。

10.2.2 AWGN 信道容量——香农公式 (Shannon Formula)

对于带宽为 $B$(Hz)、信号功率为 $S$(W)、噪声功率谱密度为 $N_0/2$(W/Hz)的 AWGN 信道:

$$\boxed{C = B \log_2\left(1 + \frac{S}{N_0 B}\right) = B \log_2\left(1 + \mathrm{SNR}\right) \quad \text{(bit/s)}}$$

其中 $N = N_0 B$ 为带内噪声功率,$\mathrm{SNR} = S/(N_0 B)$。

关键推论

  1. 增加 bandwidth $B$ 可提升容量,但受 $\ln 2$ 限制($B \to \infty$ 时 $C \to \frac{S}{N_0 \ln 2}$)
  2. 增加 SNR 可提升容量,但每倍增 SNR 仅增加 $\approx 1$ bit/s/Hz
  3. 香农极限 (Shannon limit):$E_b/N_0 = \frac{2^{R/B}-1}{R/B}$,可靠通信要求 $E_b/N_0 > -1.59$ dB

10.2.3 信道编码定理 (Channel Coding Theorem)

  • 正定理:若码率 $R < C$,存在编码方案使误码率任意小
  • 逆定理:若 $R > C$,无论如何编码,误码率不可能趋于零
flowchart TD
    A["信源 X"] --> B["信源编码
压缩"] B --> C["信道编码
纠错"] C --> D["调制
Modulation"] D --> E["AWGN 信道"] E --> F["解调"] F --> G["信道译码"] G --> H["信源译码"] H --> I["信宿"] style A fill:#0f3460,color:#fff style B fill:#16213e,color:#fff style C fill:#16213e,color:#fff style D fill:#16213e,color:#fff style E fill:#e94560,color:#fff style F fill:#16213e,color:#fff style G fill:#16213e,color:#fff style H fill:#16213e,color:#fff style I fill:#0f3460,color:#fff

10.3 信源编码定理与数据压缩

10.3.1 信源编码定理 (Source Coding Theorem)

对于熵为 $H(X)$ 的离散无记忆信源,无损压缩的平均码长 $\bar{L}$ 满足:

$$H(X) \leq \bar{L} < H(X) + 1 \quad \text{(bit/symbol)}$$

即熵是数据压缩的理论极限。

10.3.2 哈夫曼编码 (Huffman Coding)

原理:对高频符号分配短码、低频符号分配长码,构建最优前缀码。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
// Huffman 编码伪代码
HUFFMAN(symbol_list):
    Q ← 按概率升序排列的叶节点优先队列
    while |Q| > 1:
        z ← 新建内部节点
        z.left ← EXTRACT_MIN(Q)    // 最小概率节点
        z.right ← EXTRACT_MIN(Q)   // 次小概率节点
        z.prob ← z.left.prob + z.right.prob
        INSERT(Q, z)
    return Q[0]  // 树根
// 遍历树:左分支编码0,右分支编码1

特点:效率高,最优前缀码;适用于离散信源;编码效率 $\eta = H(X)/\bar{L}$ 可达 95% 以上。

10.3.3 算术编码 (Arithmetic Coding)

原理:将整个消息序列映射到 $[0,1)$ 区间内的一个子区间,输出该子区间的二进制表示。

1
2
3
4
5
6
7
8
// 算术编码伪代码
ARITHMETIC_ENCODE(sequence):
    low ← 0.0, high ← 1.0
    for symbol in sequence:
        range ← high - low
        high ← low + range × CDF[symbol].upper
        low  ← low + range × CDF[symbol].lower
    return low  // 输出区间内任意值

特点:高精度,编码效率可任意逼近熵;适用于连续或高阶信源;计算复杂度高于哈夫曼。广泛用于 JPEG2000、H.264/AVC 等标准。

10.3.4 LZW 编码 (Lempel-Ziv-Welch)

原理:基于字典的自适应通用编码,无需预先知道信源统计特性。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
// LZW 编码伪代码
LZW_ENCODE(input):
    dict ← 初始化所有单字符
    w ← 空
    for c in input:
        if w + c in dict:
            w ← w + c
        else:
            output dict[w]
            dict[w + c] ← 下一个可用码字
            w ← c
    output dict[w]

特点:通用、自适应、速度适中;无需先验统计;广泛用于 GIF、TIFF、Unix compress。

10.3.5 香农编码 (Shannon Coding)

码长 $l_i = \lceil -\log_2 P(x_i) \rceil$,理论最优但工程实现困难(需无限精度累加),实际中常作为理论分析工具。

编码方法对比

方法类型效率速度适用场景
哈夫曼变长前缀码离散信源、已知统计
算术编码区间映射极高连续信源、高精度需求
LZW字典自适应通用压缩、文件压缩
香农编码变长码理论最优理论分析

10.4 AWGN 信道噪声分析

10.4.1 白噪声通过 LTI 系统

白噪声 $n(t)$ 的功率谱密度为 $N_0/2$(双边),通过传递函数为 $H(f)$ 的 LTI 系统后:

$$S_{Y}(f) = \frac{N_0}{2} |H(f)|^2$$

输出噪声功率:

$$\sigma_Y^2 = \frac{N_0}{2} \int_{-\infty}^{\infty} |H(f)|^2 df = N_0 \int_{0}^{\infty} |H(f)|^2 df$$

10.4.2 等效噪声带宽 (Equivalent Noise Bandwidth)

$$B_{eq} = \frac{1}{|H(f_0)|^2} \int_0^{\infty} |H(f)|^2 df$$

使得实际系统输出的噪声功率等于带宽为 $B_{eq}$、中心增益为 $|H(f_0)|$ 的理想带通滤波器输出。


10.5 匹配滤波器与最佳接收机

10.5.1 匹配滤波器 (Matched Filter)

在加性白高斯噪声 (AWGN) 信道下,使采样时刻输出信噪比最大的线性滤波器。

冲激响应

$$h(t) = s(T - t), \quad 0 \leq t \leq T$$

其中 $s(t)$ 为已知信号,$T$ 为符号周期。

峰值输出 SNR

$$\mathrm{SNR}_{max} = \frac{2E_s}{N_0}$$

其中 $E_s = \int_0^T s^2(t) dt$ 为信号能量。

关键结论:匹配滤波器只依赖信号的能量而非波形形状,输出 SNR 仅由 $E_s/N_0$ 决定。

10.5.2 最佳接收机结构 (Optimal Receiver)

flowchart LR
    r["r(t)"] --> MF1["匹配滤波器
h₁(t)=s₁(T-t)"] r --> MF2["匹配滤波器
h₂(t)=s₂(T-t)"] MF1 --> S1["采样 t=T"] MF2 --> S2["采样 t=T"] S1 --> DEC["判决器
选择最大输出"] S2 --> DEC style r fill:#0f3460,color:#fff style MF1 fill:#16213e,color:#fff style MF2 fill:#16213e,color:#fff style S1 fill:#533483,color:#fff style S2 fill:#533483,color:#fff style DEC fill:#e94560,color:#fff

判决准则(MAP 准则):

$$\hat{m} = \arg\max_i \left[ P(m_i) \cdot \exp\left(-\frac{1}{N_0}|r - s_i|^2\right) \right]$$

等概时退化为最小距离准则(ML 判决)。

10.5.3 接收机灵敏度分析 (Receiver Sensitivity)

接收机灵敏度定义为满足给定误码率要求时的最小接收信号功率:

$$P_{min} = \frac{E_b}{T_b} = \frac{N_0 \cdot R_b}{2} \cdot \left(\frac{2E_b}{N_0}\right)_{req}$$

工程上常表示为:

$$P_{min} \text{(dBm)} = -174 + 10\log_{10} B + NF + \left(\frac{E_b}{N_0}\right)_{req} \text{(dB)}$$

其中 $NF$ 为接收机噪声系数 (Noise Figure)。


10.6 数字系统误码率性能分析

10.6.1 二进制调制误码率

定义 $Q(x) = \frac{1}{\sqrt{2\pi}} \int_x^{\infty} e^{-t^2/2} dt$。

调制方式误码率公式近似(高 SNR)
BPSK$Q\left(\sqrt{2E_b/N_0}\right)$
BFSK(非相干)$\frac{1}{2}e^{-E_b/(2N_0)}$
OOK(相干)$Q\left(\sqrt{E_b/N_0}\right)$
DPSK$\frac{1}{2}e^{-E_b/N_0}$

10.6.2 M 进制调制误码率

  • M-PSK:$P_e \approx \frac{2}{\log_2 M} Q\left(\sqrt{2\log_2 M \cdot \sin^2(\pi/M) \cdot \frac{E_b}{N_0}}\right)$
  • M-QAM:$P_e \approx \frac{4}{\log_2 M}\left(1 - \frac{1}{\sqrt{M}}\right) Q\left(\sqrt{\frac{3\log_2 M}{M-1} \cdot \frac{E_b}{N_0}}\right)$

10.6.3 误码率与信道容量的权衡

flowchart TD
    A["设计目标"] --> B["提高频谱效率
高阶调制 M-QAM"] A --> C["降低误码率
信道编码 FEC"] A --> D["降低发射功率
扩频/编码增益"] B --> E["代价: BER 升高"] C --> F["代价: 码率下降
频谱效率降低"] D --> G["代价: 带宽增大"] style A fill:#e94560,color:#fff style B fill:#16213e,color:#fff style C fill:#16213e,color:#fff style D fill:#16213e,color:#fff style E fill:#533483,color:#fff style F fill:#533483,color:#fff style G fill:#533483,color:#fff

通信系统三大资源——功率带宽复杂度之间的根本性权衡由香农公式统一描述。


10.7 工程应用

10.7.1 信号检测理论

在假设检验框架下:

$$\Lambda(r) = \frac{p(r|H_1)}{p(r|H_0)} \underset{H_0}{\overset{H_1}{\gtrless}} \lambda$$

其中 $\lambda$ 由贝叶斯风险或 Neyman-Pearson 准则确定。在 AWGN 下,似然比检验等价于相关运算(匹配滤波器)。

10.7.2 链路预算中的信息论应用

$$\frac{C}{B} = \log_2(1 + \mathrm{SNR}) \quad \Rightarrow \quad \mathrm{SNR}_{req} = 2^{C/B} - 1$$

给定目标频谱效率 $\eta = C/B$,可反推所需的 $E_b/N_0$:

$$\frac{E_b}{N_0} = \frac{2^\eta - 1}{\eta}$$

$\eta$ (bit/s/Hz)$E_b/N_0$ 理论最小值 (dB)典型实现 (dB)
0.5-0.192~4
1.00.004~7
2.01.767~10
4.05.7412~16

实际系统与香农极限之间存在 2~8 dB 的实现损耗,由信道编码和调制技术逼近。


10.8 信息论与密码学

香农在 1949 年将信息论引入密码学,提出完美保密 (Perfect Secrecy) 的概念:

$$I(M; C) = 0$$

即密文 $C$ 不提供关于明文 $M$ 的任何信息,当且仅当密钥熵 $H(K) \geq H(M)$(一次一密 One-Time Pad)。

密码学中的信息论概念

  • 密钥熵:密钥空间大小的度量,$H(K) = \log_2 |K|$
  • 唯一解距离 (Unicity Distance):$U = H(K)/D$,其中 $D$ 为明文冗余度
  • 散布与混淆 (Diffusion & Confusion):分别对应信息扩散和复杂化密文-密钥关系

工程联系:现代分组密码(AES、SM4)通过多轮迭代实现充分的信息散布与混淆,使密文近似均匀分布(最大化密文熵)。


10.9 小结

概念总结表

核心概念定义物理含义
熵 $H(X)$$-E[\log_2 P(X)]$信源不确定性/压缩极限
互信息 $I(X;Y)$$H(X)-H(X|Y)$信道传输信息量
信道容量 $C$$\max I(X;Y)$可靠通信速率上限
匹配滤波器$h(t)=s(T-t)$最大化输出 SNR
香农公式$C=B\log_2(1+SNR)$容量-带宽-功率关系

公式汇总表

公式表达式量纲
自信息$I(x)=-\log_2 P(x)$bit
$H(X)=-\sum P(x_i)\log_2 P(x_i)$bit/symbol
信道容量 (AWGN)$C=B\log_2(1+S/N)$bit/s
匹配滤波器 SNR$2E_s/N_0$无量纲
BPSK 误码率$Q(\sqrt{2E_b/N_0})$无量纲
接收灵敏度$-174+10\log B+NF+(E_b/N_0)_{req}$dBm
等效噪声带宽$\int_0^\infty |H(f)|^2 df / |H(f_0)|^2$Hz

量纲分析

  • $H(X)$:bit/symbol(每个信源符号的平均信息量)
  • $C$:bit/s(信道单位时间传输能力)
  • $E_b/N_0$:无量纲(每比特能量与噪声功率谱密度之比)
  • $B$:Hz(带宽)
  • $N_0$:W/Hz(噪声功率谱密度)

工程意义

  1. 系统设计上限:香农公式给出任何通信系统的理论性能上限
  2. 压缩极限:熵确定了无损压缩的不可逾越下限
  3. 接收机设计:匹配滤波器是 AWGN 下的最优线性接收机
  4. 链路预算:$E_b/N_0$ vs BER 曲线是系统设计的核心工具
  5. 编码选择:信道编码定理指导 FEC 方案设计(Turbo、LDPC、Polar 码)

思考题

  1. 某信源有 4 个符号,概率分别为 {1/2, 1/4, 1/8, 1/8},计算该信源的熵,并设计哈夫曼编码,求编码效率。
  2. 已知 AWGN 信道带宽 $B=1$ MHz,$SNR=30$ dB,求信道容量。若要求传输速率为 20 Mbps,最小需要多少 SNR?
  3. 证明匹配滤波器在采样时刻 $t=T$ 的输出 SNR达到最大值 $2E_s/N_0$。
  4. BPSK 系统要求误码率 $P_e \leq 10^{-5}$,接收机噪声系数 $NF=6$ dB,数据速率 $R_b=1$ Mbps,求接收机灵敏度(dBm)。
  5. 从信息论角度解释:为什么一次一密(OTP)能实现完美保密?现代密码(如 AES-256)的密钥熵是多少?

参考文献

  1. Shannon, C. E. (1948). “A Mathematical Theory of Communication.” Bell System Technical Journal, 27(3), 379–423.
  2. Proakis, J. G. & Salehi, M. (2008). Digital Communications (5th ed.). McGraw-Hill.
  3. Cover, T. M. & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
  4. Haykin, S. (2014). Digital Communication Systems. Wiley.
  5. Gallager, R. G. (2008). Principles of Digital Communication. Cambridge University Press.