MIT 18.650 — Problem Set 1 知识点与注意事项归纳

本笔记涵盖：随机变量收敛（多种形式）、中心极限定理、Bernoulli/Binomial/Poisson 的性质、三种常见置信区间（保守 / Wilson / Wald）、样本量估计、以及常见陷阱与答题策略。

一、随机变量的几种收敛形式（及相互关系）

四种常见收敛类型

几乎处处收敛 (almost sure, a.s.)
记号： $X_n → X (a.s.)$
定义： $P( lim_{n→∞} X_n = X ) = 1$
依概率收敛 (in probability)
记号： $X_n → X (P)$
定义：对任意 ε>0， $P(|X_n - X| > ε) → 0$
L^p 收敛（以 L^2 为例）
记号： $X_n → X (L^2)$
定义： $E[|X_n - X|^2] → 0$ （均方收敛）
分布收敛 (in distribution)
记号： $X_n → X (d)$
定义：分布函数 $F_{X_n}(t) → F_X(t)$ 在 $F_X$ 连续点处成立

强度与蕴含关系

$a.s. ⇒ in probability ⇒ in distribution$
$L^2 ⇒ in probability$ （但反过来不一定成立）
注意： $in distribution$ 最弱；仅保证边缘分布收敛，不保证任何依赖关系/联合分布的收敛。

常见反直觉示例

有序列会依概率收敛但不在 L^2 收敛：如题中例子
$P(X_n = 1/n) = 1 - 1/n^2, P(X_n = n) = 1/n^2$ 。
该序列 $X_n → 0$ （依概率），但 $E[X_n^2] ≈ 1$ ，不趋 0 → 无 L^2 收敛。

二、中心极限定理（CLT）

经典形式

若 $X_1,...,X_n$ i.i.d.， $E[X_i] = μ$ ， $Var[X_i] = σ^2 < ∞$ ，则

$\frac{\sqrt{n}(\bar X_n - μ)}{σ} \xrightarrow{d} N(0,1).$

推论

对样本均值有近似正态分布：
$\bar X_n \approx N\Big( μ, \frac{σ^2}{n} \Big)$
当 $n$ 足够大时可用来构造置信区间。

注意

CLT 是渐近结果，小样本时近似可能不够好，特别是二项/比例在极端 p 值或小 n 时要谨慎（推荐使用 Wilson 或精确方法）。

三、Bernoulli / Binomial / Poisson 的要点

Bernoulli(p)

若 $X_i ∼ Bernoulli(p)$ $X_{i} \sim B er n o u l l i (p)$ ，则
- $E[X_i] = p$
- $Var(X_i) = p(1-p)$
样本均值 $\bar X_n = (1/n) ∑ X_i$ $\overset{ˉ}{X}_{n} = (1/ n) \sum X_{i}$ ：
- $E[\bar X_n] = p$
- $Var(\bar X_n) = p(1-p)/n$
- 因此 $\bar X_n → p$ 在 L^2（且依概率）收敛

Binomial(n,p)

$∑_{i=1}^n X_i ∼ Binomial(n,p)$

Poisson(λ_n)

若 $λ_n → 0$ 则 $Poisson(λ_n) → 0$ 依概率（因为 $P(X_n=0)=e^{-λ_n}→1$ ）

四、置信区间（频率学视角）

基本概念

置信区间（Confidence Interval, CI）是重复抽样下具有一定覆盖率的区间估计。
在频率学意义下不能说“在此次观测下 p 在区间的概率是 95%”，应该说“这个区间构造方法在重复抽样下覆盖真值 p 的概率为 95%”。

CLT 构建的理论区间

若 $p$ 已知（理论情况），则

$p ∈ \bar X_n ± z_{1-α/2} \sqrt{\frac{p(1-p)}{n}}.$

其中 $z_{1-α/2}$ 为标准正态上分位点（例如 95% → 1.96）。

五、三种常见的 Bernoulli 比例置信区间（比较）

1. 保守区间 $J1$ （不依赖 p）

使用 $p(1-p) ≤ 1/4$ 得到：

$J_1 = \left(\bar X_n - \frac{z}{2\sqrt{n}},\ \bar X_n + \frac{z}{2\sqrt{n}}\right).$

优点：不依赖未知 $p$ ，保证覆盖（渐近或保守）。缺点：通常过宽。

2. Wilson（score）区间 $J2$

通过解不等式（由 CLT 的标准化平方两边操作）得到：

$J_2 = \left( \frac{\bar X_n + \tfrac{z^2}{2n} \pm z\sqrt{\dfrac{\bar X_n(1-\bar X_n)}{n} + \dfrac{z^2}{4n^2}}}{1 + \tfrac{z^2}{n}} \right).$

性质：较稳健、在小样本或极端 p 值下表现更好，通常优于 Wald。

3. Wald（plug-in）区间 $J3$

直接用 $\bar X_n$ 代替 $p$ ：

$J_3 = \left(\bar X_n - z\sqrt{\frac{\bar X_n(1-\bar X_n)}{n}},\ \bar X_n + z\sqrt{\frac{\bar X_n(1-\bar X_n)}{n}}\right).$

优点：公式简单。缺点：在小样本或 p 极端值时覆盖率可能大幅偏离名义水平（往往低于标称覆盖率）。

结论（实务建议）：若样本量较小或 $\bar X_n$ 接近 0 或 1，优先使用 Wilson（或精确法 Clopper–Pearson）；大样本下 Wald 可接受。

六、样本量估计（针对区间长度）

目标：构造不依赖 $p$ 的区间，长度 ≤ δ 且置信度 95%（ $z=1.96$ ）。

使用保守上界 $p(1-p) ≤ 1/4$ ，区间半宽为 $z/(2√n)$ ，全长为 $z/√n$ 。要求：

$\frac{z}{\sqrt{n}} ≤ δ \quad⇒\quad n ≥ \left(\frac{z}{δ}\right)^2.$

例： $δ=0.05$ ， $z=1.96$ → $n ≥ (1.96/0.05)^2 ≈ 1536.64$ → 取整数 $n_min=1537$ 。

七、数值示例（n=10000, p̂=0.7341, z=1.96）

计算结果（数值）：

$J1$ （保守） = (0.72430, 0.74390)，长度 = 0.01960
$J2$ （Wilson） = (0.72535, 0.74267)，长度 ≈ 0.0173166
$J3$ （Wald） = (0.72544, 0.74276)，长度 ≈ 0.0173190

可见 Wilson 略优（更窄、稳定），保守区间最宽。

八、常见陷阱与答题注意事项

区分“置信区间的概率含义”：频率学下不要把置信区间的概率解释为“该次观测下 p 的概率”。
分布收敛不能保证联合/和的收敛：边缘收敛不保证和/差/函数的分布收敛（需检验联合收敛或使用独立性假设）。
L^2 和依概率的区别： $L^2 ⇒ in probability$ ，但 $in probability$ 不一定 ⇒ $L^2$ （检验时直接算二阶矩）。
CLT 的适用范围：当样本量小或分布偏态严重时，慎用正态近似替代精确解。
小样本比例问题：当 $n$ 小且 $p̂$ 接近 0 或 1，Wald 置信区间可能会超出 [0,1] 或覆盖率偏差大，优先 Wilson 或 Clopper-Pearson。

九、答题/写作策略（作业与考试）

写证明题时明示使用的定理（例如 CLT、Slutsky、Chebyshev、不等式等）并说明适用条件。
证明依概率收敛可用： $P(|X_n - X| > ε) → 0$ ，或给出上界并验证上界 → 0。
检验 L^2 收敛时直接计算 $E[(X_n - X)^2]$ 。
真/假题要给出具体反例（构造性反例更有说服力）。
置信区间题目最好写出推导步骤（CLT 标准化 → 解取端点 → 若需要改写为 Wilson，显示代数步骤或写出标准 Wilson 形式）。

参考快捷表

95% z 值： $1.96$
90% z 值： $1.645$
99% z 值： $2.576$