信息论基础 / Information Theory

10.1 信息度量基础

10.1.1 自信息 (Self-Information)

一个随机事件 $x_i$ 发生所带来的信息量定义为：

$$I(x_i) = \log_b \frac{1}{P(x_i)} = -\log_b P(x_i) \quad \text{(bit / nat / hartley)}$$

当 $b=2$ 时单位为比特 (bit)，$b=e$ 时为奈特 (nat)，$b=10$ 时为哈特莱 (hartley)。显然，概率越小的事件携带的信息量越大。

10.1.2 信息熵 (Entropy)

离散无记忆信源 $X$ 的平均信息量——熵：

$$H(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i) \quad \text{(bit/symbol)}$$

熵的性质：

非负性：$H(X) \geq 0$
最大熵：等概分布时 $H(X) = \log_2 n$
极值性：$H(X) \leq \log_2 n$
可加性：联合熵 $H(X,Y) = H(X) + H(Y|X)$

工程意义：熵表示信源的平均不确定性，也是无损压缩的理论下限——无论采用何种编码方案，平均码长不可能低于 $H(X)$。

10.1.3 互信息 (Mutual Information)

$$I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = \sum_{x,y} P(x,y) \log_2 \frac{P(x,y)}{P(x)P(y)}$$

互信息度量了观测 $Y$ 后对 $X$ 不确定性的消除量。在通信系统中，$I(X;Y)$ 代表信道传输的有效信息量。

flowchart LR
    subgraph N0
        HX["H(X)"]
        HY["H(Y)"]
        HXY["H(X,Y)"]
    end
    style N0 fill:#1a1a2e,color:#fff,stroke:#e94560
    style HX fill:#16213e,color:#fff
    style HY fill:#16213e,color:#fff
    style HXY fill:#16213e,color:#fff

10.1.4 各信息量关系

量	公式	量纲	工程含义
自信息 $I(x_i)$	$-\log_2 P(x_i)$	bit	单个符号的信息量
熵 $H(X)$	$E[-\log_2 P(X)]$	bit/symbol	信源平均信息量
条件熵 $H(X\|Y)$	$E[-\log_2 P(X\|Y)]$	bit/symbol	观测后残余不确定性
互信息 $I(X;Y)$	$H(X)-H(X\|Y)$	bit/symbol	信道传输信息量

10.2 信道容量与香农公式

10.2.1 信道容量 (Channel Capacity)

信道容量定义为互信息的最大值：

$$C = \max_{P(x)} I(X;Y) \quad \text{(bit/symbol)}$$

对于连续信道，信道容量单位为 bit/s。

10.2.2 AWGN 信道容量——香农公式 (Shannon Formula)

对于带宽为 $B$（Hz）、信号功率为 $S$（W）、噪声功率谱密度为 $N_0/2$（W/Hz）的 AWGN 信道：

$$\boxed{C = B \log_2\left(1 + \frac{S}{N_0 B}\right) = B \log_2\left(1 + \mathrm{SNR}\right) \quad \text{(bit/s)}}$$

其中 $N = N_0 B$ 为带内噪声功率，$\mathrm{SNR} = S/(N_0 B)$。

关键推论：

增加 bandwidth $B$ 可提升容量，但受 $\ln 2$ 限制（$B \to \infty$ 时 $C \to \frac{S}{N_0 \ln 2}$）
增加 SNR 可提升容量，但每倍增 SNR 仅增加 $\approx 1$ bit/s/Hz
香农极限 (Shannon limit)：$E_b/N_0 = \frac{2^{R/B}-1}{R/B}$，可靠通信要求 $E_b/N_0 > -1.59$ dB

10.2.3 信道编码定理 (Channel Coding Theorem)

正定理：若码率 $R < C$，存在编码方案使误码率任意小
逆定理：若 $R > C$，无论如何编码，误码率不可能趋于零

flowchart TD
    A["信源 X"] --> B["信源编码
压缩"]
    B --> C["信道编码
纠错"]
    C --> D["调制
Modulation"]
    D --> E["AWGN 信道"]
    E --> F["解调"]
    F --> G["信道译码"]
    G --> H["信源译码"]
    H --> I["信宿"]
    style A fill:#0f3460,color:#fff
    style B fill:#16213e,color:#fff
    style C fill:#16213e,color:#fff
    style D fill:#16213e,color:#fff
    style E fill:#e94560,color:#fff
    style F fill:#16213e,color:#fff
    style G fill:#16213e,color:#fff
    style H fill:#16213e,color:#fff
    style I fill:#0f3460,color:#fff

10.3 信源编码定理与数据压缩

10.3.1 信源编码定理 (Source Coding Theorem)

对于熵为 $H(X)$ 的离散无记忆信源，无损压缩的平均码长 $\bar{L}$ 满足：

$$H(X) \leq \bar{L} < H(X) + 1 \quad \text{(bit/symbol)}$$

即熵是数据压缩的理论极限。

10.3.2 哈夫曼编码 (Huffman Coding)

原理：对高频符号分配短码、低频符号分配长码，构建最优前缀码。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
// Huffman 编码伪代码
HUFFMAN(symbol_list):
    Q ← 按概率升序排列的叶节点优先队列
    while |Q| > 1:
        z ← 新建内部节点
        z.left ← EXTRACT_MIN(Q)    // 最小概率节点
        z.right ← EXTRACT_MIN(Q)   // 次小概率节点
        z.prob ← z.left.prob + z.right.prob
        INSERT(Q, z)
    return Q[0]  // 树根
// 遍历树：左分支编码0，右分支编码1

特点：效率高，最优前缀码；适用于离散信源；编码效率 $\eta = H(X)/\bar{L}$ 可达 95% 以上。

10.3.3 算术编码 (Arithmetic Coding)

原理：将整个消息序列映射到 $[0,1)$ 区间内的一个子区间，输出该子区间的二进制表示。

1
2
3
4
5
6
7
8
// 算术编码伪代码
ARITHMETIC_ENCODE(sequence):
    low ← 0.0, high ← 1.0
    for symbol in sequence:
        range ← high - low
        high ← low + range × CDF[symbol].upper
        low  ← low + range × CDF[symbol].lower
    return low  // 输出区间内任意值

特点：高精度，编码效率可任意逼近熵；适用于连续或高阶信源；计算复杂度高于哈夫曼。广泛用于 JPEG2000、H.264/AVC 等标准。

10.3.4 LZW 编码 (Lempel-Ziv-Welch)

原理：基于字典的自适应通用编码，无需预先知道信源统计特性。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
// LZW 编码伪代码
LZW_ENCODE(input):
    dict ← 初始化所有单字符
    w ← 空
    for c in input:
        if w + c in dict:
            w ← w + c
        else:
            output dict[w]
            dict[w + c] ← 下一个可用码字
            w ← c
    output dict[w]

特点：通用、自适应、速度适中；无需先验统计；广泛用于 GIF、TIFF、Unix compress。

10.3.5 香农编码 (Shannon Coding)

码长 $l_i = \lceil -\log_2 P(x_i) \rceil$，理论最优但工程实现困难（需无限精度累加），实际中常作为理论分析工具。

编码方法对比

方法	类型	效率	速度	适用场景
哈夫曼	变长前缀码	高	快	离散信源、已知统计
算术编码	区间映射	极高	中	连续信源、高精度需求
LZW	字典自适应	中	中	通用压缩、文件压缩
香农编码	变长码	理论最优	慢	理论分析

10.4 AWGN 信道噪声分析

10.4.1 白噪声通过 LTI 系统

白噪声 $n(t)$ 的功率谱密度为 $N_0/2$（双边），通过传递函数为 $H(f)$ 的 LTI 系统后：

$$S_{Y}(f) = \frac{N_0}{2} |H(f)|^2$$

输出噪声功率：

$$\sigma_Y^2 = \frac{N_0}{2} \int_{-\infty}^{\infty} |H(f)|^2 df = N_0 \int_{0}^{\infty} |H(f)|^2 df$$

10.4.2 等效噪声带宽 (Equivalent Noise Bandwidth)

$$B_{eq} = \frac{1}{|H(f_0)|^2} \int_0^{\infty} |H(f)|^2 df$$

使得实际系统输出的噪声功率等于带宽为 $B_{eq}$、中心增益为 $|H(f_0)|$ 的理想带通滤波器输出。

10.5 匹配滤波器与最佳接收机

10.5.1 匹配滤波器 (Matched Filter)

在加性白高斯噪声 (AWGN) 信道下，使采样时刻输出信噪比最大的线性滤波器。

冲激响应：

$$h(t) = s(T - t), \quad 0 \leq t \leq T$$

其中 $s(t)$ 为已知信号，$T$ 为符号周期。

峰值输出 SNR：

$$\mathrm{SNR}_{max} = \frac{2E_s}{N_0}$$

其中 $E_s = \int_0^T s^2(t) dt$ 为信号能量。

关键结论：匹配滤波器只依赖信号的能量而非波形形状，输出 SNR 仅由 $E_s/N_0$ 决定。

10.5.2 最佳接收机结构 (Optimal Receiver)

flowchart LR
    r["r(t)"] --> MF1["匹配滤波器
h₁(t)=s₁(T-t)"]
    r --> MF2["匹配滤波器
h₂(t)=s₂(T-t)"]
    MF1 --> S1["采样 t=T"]
    MF2 --> S2["采样 t=T"]
    S1 --> DEC["判决器
选择最大输出"]
    S2 --> DEC
    style r fill:#0f3460,color:#fff
    style MF1 fill:#16213e,color:#fff
    style MF2 fill:#16213e,color:#fff
    style S1 fill:#533483,color:#fff
    style S2 fill:#533483,color:#fff
    style DEC fill:#e94560,color:#fff

判决准则（MAP 准则）：

$$\hat{m} = \arg\max_i \left[ P(m_i) \cdot \exp\left(-\frac{1}{N_0}|r - s_i|^2\right) \right]$$

等概时退化为最小距离准则（ML 判决）。

10.5.3 接收机灵敏度分析 (Receiver Sensitivity)

接收机灵敏度定义为满足给定误码率要求时的最小接收信号功率：

$$P_{min} = \frac{E_b}{T_b} = \frac{N_0 \cdot R_b}{2} \cdot \left(\frac{2E_b}{N_0}\right)_{req}$$

工程上常表示为：

$$P_{min} \text{(dBm)} = -174 + 10\log_{10} B + NF + \left(\frac{E_b}{N_0}\right)_{req} \text{(dB)}$$

其中 $NF$ 为接收机噪声系数 (Noise Figure)。

10.6 数字系统误码率性能分析

10.6.1 二进制调制误码率

定义 $Q(x) = \frac{1}{\sqrt{2\pi}} \int_x^{\infty} e^{-t^2/2} dt$。

调制方式	误码率公式	近似（高 SNR）
BPSK	$Q\left(\sqrt{2E_b/N_0}\right)$	—
BFSK（非相干）	$\frac{1}{2}e^{-E_b/(2N_0)}$	—
OOK（相干）	$Q\left(\sqrt{E_b/N_0}\right)$	—
DPSK	$\frac{1}{2}e^{-E_b/N_0}$	—

10.6.2 M 进制调制误码率

M-PSK：$P_e \approx \frac{2}{\log_2 M} Q\left(\sqrt{2\log_2 M \cdot \sin^2(\pi/M) \cdot \frac{E_b}{N_0}}\right)$
M-QAM：$P_e \approx \frac{4}{\log_2 M}\left(1 - \frac{1}{\sqrt{M}}\right) Q\left(\sqrt{\frac{3\log_2 M}{M-1} \cdot \frac{E_b}{N_0}}\right)$

10.6.3 误码率与信道容量的权衡

flowchart TD
    A["设计目标"] --> B["提高频谱效率
高阶调制 M-QAM"]
    A --> C["降低误码率
信道编码 FEC"]
    A --> D["降低发射功率
扩频/编码增益"]
    B --> E["代价: BER 升高"]
    C --> F["代价: 码率下降
频谱效率降低"]
    D --> G["代价: 带宽增大"]
    style A fill:#e94560,color:#fff
    style B fill:#16213e,color:#fff
    style C fill:#16213e,color:#fff
    style D fill:#16213e,color:#fff
    style E fill:#533483,color:#fff
    style F fill:#533483,color:#fff
    style G fill:#533483,color:#fff

通信系统三大资源——功率、带宽、复杂度之间的根本性权衡由香农公式统一描述。

10.7 工程应用

10.7.1 信号检测理论

在假设检验框架下：

$$\Lambda(r) = \frac{p(r|H_1)}{p(r|H_0)} \underset{H_0}{\overset{H_1}{\gtrless}} \lambda$$

其中 $\lambda$ 由贝叶斯风险或 Neyman-Pearson 准则确定。在 AWGN 下，似然比检验等价于相关运算（匹配滤波器）。

10.7.2 链路预算中的信息论应用

$$\frac{C}{B} = \log_2(1 + \mathrm{SNR}) \quad \Rightarrow \quad \mathrm{SNR}_{req} = 2^{C/B} - 1$$

给定目标频谱效率 $\eta = C/B$，可反推所需的 $E_b/N_0$：

$$\frac{E_b}{N_0} = \frac{2^\eta - 1}{\eta}$$

$\eta$ (bit/s/Hz)	$E_b/N_0$ 理论最小值 (dB)	典型实现 (dB)
0.5	-0.19	2~4
1.0	0.00	4~7
2.0	1.76	7~10
4.0	5.74	12~16

实际系统与香农极限之间存在 2~8 dB 的实现损耗，由信道编码和调制技术逼近。

10.8 信息论与密码学

香农在 1949 年将信息论引入密码学，提出完美保密 (Perfect Secrecy) 的概念：

$$I(M; C) = 0$$

即密文 $C$ 不提供关于明文 $M$ 的任何信息，当且仅当密钥熵 $H(K) \geq H(M)$（一次一密 One-Time Pad）。

密码学中的信息论概念：

密钥熵：密钥空间大小的度量，$H(K) = \log_2 |K|$
唯一解距离 (Unicity Distance)：$U = H(K)/D$，其中 $D$ 为明文冗余度
散布与混淆 (Diffusion & Confusion)：分别对应信息扩散和复杂化密文-密钥关系

工程联系：现代分组密码（AES、SM4）通过多轮迭代实现充分的信息散布与混淆，使密文近似均匀分布（最大化密文熵）。

10.9 小结

概念总结表

核心概念	定义	物理含义
熵 $H(X)$	$-E[\log_2 P(X)]$	信源不确定性/压缩极限
互信息 $I(X;Y)$	$H(X)-H(X\|Y)$	信道传输信息量
信道容量 $C$	$\max I(X;Y)$	可靠通信速率上限
匹配滤波器	$h(t)=s(T-t)$	最大化输出 SNR
香农公式	$C=B\log_2(1+SNR)$	容量-带宽-功率关系

公式汇总表

公式	表达式	量纲
自信息	$I(x)=-\log_2 P(x)$	bit
熵	$H(X)=-\sum P(x_i)\log_2 P(x_i)$	bit/symbol
信道容量 (AWGN)	$C=B\log_2(1+S/N)$	bit/s
匹配滤波器 SNR	$2E_s/N_0$	无量纲
BPSK 误码率	$Q(\sqrt{2E_b/N_0})$	无量纲
接收灵敏度	$-174+10\log B+NF+(E_b/N_0)_{req}$	dBm
等效噪声带宽	$\int_0^\infty \|H(f)\|^2 df / \|H(f_0)\|^2$	Hz

量纲分析

$H(X)$：bit/symbol（每个信源符号的平均信息量）
$C$：bit/s（信道单位时间传输能力）
$E_b/N_0$：无量纲（每比特能量与噪声功率谱密度之比）
$B$：Hz（带宽）
$N_0$：W/Hz（噪声功率谱密度）

工程意义

系统设计上限：香农公式给出任何通信系统的理论性能上限
压缩极限：熵确定了无损压缩的不可逾越下限
接收机设计：匹配滤波器是 AWGN 下的最优线性接收机
链路预算：$E_b/N_0$ vs BER 曲线是系统设计的核心工具
编码选择：信道编码定理指导 FEC 方案设计（Turbo、LDPC、Polar 码）

思考题

某信源有 4 个符号，概率分别为 {1/2, 1/4, 1/8, 1/8}，计算该信源的熵，并设计哈夫曼编码，求编码效率。
已知 AWGN 信道带宽 $B=1$ MHz，$SNR=30$ dB，求信道容量。若要求传输速率为 20 Mbps，最小需要多少 SNR？
证明匹配滤波器在采样时刻 $t=T$ 的输出 SNR达到最大值 $2E_s/N_0$。
BPSK 系统要求误码率 $P_e \leq 10^{-5}$，接收机噪声系数 $NF=6$ dB，数据速率 $R_b=1$ Mbps，求接收机灵敏度（dBm）。
从信息论角度解释：为什么一次一密（OTP）能实现完美保密？现代密码（如 AES-256）的密钥熵是多少？

参考文献

Shannon, C. E. (1948). “A Mathematical Theory of Communication.” Bell System Technical Journal, 27(3), 379–423.
Proakis, J. G. & Salehi, M. (2008). Digital Communications (5th ed.). McGraw-Hill.
Cover, T. M. & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Haykin, S. (2014). Digital Communication Systems. Wiley.
Gallager, R. G. (2008). Principles of Digital Communication. Cambridge University Press.

信息论基础 / Information Theory#

10.1 信息度量基础#

10.1.1 自信息 (Self-Information)#

10.1.2 信息熵 (Entropy)#

10.1.3 互信息 (Mutual Information)#

10.1.4 各信息量关系#

10.2 信道容量与香农公式#

10.2.1 信道容量 (Channel Capacity)#

10.2.2 AWGN 信道容量——香农公式 (Shannon Formula)#

10.2.3 信道编码定理 (Channel Coding Theorem)#

10.3 信源编码定理与数据压缩#

10.3.1 信源编码定理 (Source Coding Theorem)#

10.3.2 哈夫曼编码 (Huffman Coding)#

10.3.3 算术编码 (Arithmetic Coding)#

10.3.4 LZW 编码 (Lempel-Ziv-Welch)#

10.3.5 香农编码 (Shannon Coding)#

编码方法对比#

10.4 AWGN 信道噪声分析#

10.4.1 白噪声通过 LTI 系统#

10.4.2 等效噪声带宽 (Equivalent Noise Bandwidth)#

10.5 匹配滤波器与最佳接收机#

10.5.1 匹配滤波器 (Matched Filter)#

10.5.2 最佳接收机结构 (Optimal Receiver)#

10.5.3 接收机灵敏度分析 (Receiver Sensitivity)#

10.6 数字系统误码率性能分析#

10.6.1 二进制调制误码率#

10.6.2 M 进制调制误码率#

10.6.3 误码率与信道容量的权衡#

10.7 工程应用#

10.7.1 信号检测理论#

10.7.2 链路预算中的信息论应用#

10.8 信息论与密码学#

10.9 小结#

概念总结表#

公式汇总表#

量纲分析#

工程意义#

思考题#

参考文献#