MIT 18.650 — Problem Set 1 知识点与注意事项归纳

本笔记涵盖:随机变量收敛(多种形式)、中心极限定理、Bernoulli/Binomial/Poisson 的性质、三种常见置信区间(保守 / Wilson / Wald)、样本量估计、以及常见陷阱与答题策略。


一、随机变量的几种收敛形式(及相互关系)

四种常见收敛类型

  • 几乎处处收敛 (almost sure, a.s.)
    记号:XnX(a.s.)X_n → X (a.s.)
    定义:P(limnXn=X)=1P( lim_{n→∞} X_n = X ) = 1

  • 依概率收敛 (in probability)
    记号:XnX(P)X_n → X (P)
    定义:对任意 ε>0,P(XnX>ε)0P(|X_n - X| > ε) → 0

  • L^p 收敛(以 L^2 为例)
    记号:XnX(L2)X_n → X (L^2)
    定义:E[XnX2]0E[|X_n - X|^2] → 0(均方收敛)

  • 分布收敛 (in distribution)
    记号:XnX(d)X_n → X (d)
    定义:分布函数 FXn(t)FX(t)F_{X_n}(t) → F_X(t)FXF_X 连续点处成立

强度与蕴含关系

  • a.s.inprobabilityindistributiona.s. ⇒ in probability ⇒ in distribution
  • L2inprobabilityL^2 ⇒ in probability(但反过来不一定成立)
  • 注意:indistributionin distribution 最弱;仅保证边缘分布收敛,不保证任何依赖关系/联合分布的收敛。

常见反直觉示例

  • 有序列会依概率收敛但不在 L^2 收敛:如题中例子
    P(Xn=1/n)=11/n2,P(Xn=n)=1/n2P(X_n = 1/n) = 1 - 1/n^2, P(X_n = n) = 1/n^2
    该序列 Xn0X_n → 0(依概率),但 E[Xn2]1E[X_n^2] ≈ 1,不趋 0 → 无 L^2 收敛。

二、中心极限定理(CLT)

经典形式

X1,...,XnX_1,...,X_n i.i.d.,E[Xi]=μE[X_i] = μVar[Xi]=σ2<Var[X_i] = σ^2 < ∞,则

n(Xˉnμ)σdN(0,1).\frac{\sqrt{n}(\bar X_n - μ)}{σ} \xrightarrow{d} N(0,1).

推论

  • 对样本均值有近似正态分布:

    XˉnN(μ,σ2n)\bar X_n \approx N\Big( μ, \frac{σ^2}{n} \Big)

    nn 足够大时可用来构造置信区间。

注意

  • CLT 是渐近结果,小样本时近似可能不够好,特别是二项/比例在极端 p 值或小 n 时要谨慎(推荐使用 Wilson 或精确方法)。

三、Bernoulli / Binomial / Poisson 的要点

Bernoulli(p)

  • XiBernoulli(p)X_i ∼ Bernoulli(p),则
    • E[Xi]=pE[X_i] = p
    • Var(Xi)=p(1p)Var(X_i) = p(1-p)
  • 样本均值 Xˉn=(1/n)Xi\bar X_n = (1/n) ∑ X_i
    • E[Xˉn]=pE[\bar X_n] = p
    • Var(Xˉn)=p(1p)/nVar(\bar X_n) = p(1-p)/n
    • 因此 Xˉnp\bar X_n → p 在 L^2(且依概率)收敛

Binomial(n,p)

  • i=1nXiBinomial(n,p)∑_{i=1}^n X_i ∼ Binomial(n,p)

Poisson(λ_n)

  • λn0λ_n → 0Poisson(λn)0Poisson(λ_n) → 0 依概率(因为 P(Xn=0)=eλn1P(X_n=0)=e^{-λ_n}→1

四、置信区间(频率学视角)

基本概念

  • 置信区间(Confidence Interval, CI)是重复抽样下具有一定覆盖率的区间估计。
  • 在频率学意义下不能说“在此次观测下 p 在区间的概率是 95%”,应该说“这个区间构造方法在重复抽样下覆盖真值 p 的概率为 95%”。

CLT 构建的理论区间

pp 已知(理论情况),则

pXˉn±z1α/2p(1p)n.p ∈ \bar X_n ± z_{1-α/2} \sqrt{\frac{p(1-p)}{n}}.

其中 z1α/2z_{1-α/2} 为标准正态上分位点(例如 95% → 1.96)。


五、三种常见的 Bernoulli 比例置信区间(比较)

1. 保守区间 J1J1(不依赖 p)

使用 p(1p)1/4p(1-p) ≤ 1/4 得到:

J1=(Xˉnz2n, Xˉn+z2n).J_1 = \left(\bar X_n - \frac{z}{2\sqrt{n}},\ \bar X_n + \frac{z}{2\sqrt{n}}\right).

优点:不依赖未知 pp,保证覆盖(渐近或保守)。缺点:通常过宽。

2. Wilson(score)区间 J2J2

通过解不等式(由 CLT 的标准化平方两边操作)得到:

J2=(Xˉn+z22n±zXˉn(1Xˉn)n+z24n21+z2n).J_2 = \left( \frac{\bar X_n + \tfrac{z^2}{2n} \pm z\sqrt{\dfrac{\bar X_n(1-\bar X_n)}{n} + \dfrac{z^2}{4n^2}}}{1 + \tfrac{z^2}{n}} \right).

性质:较稳健、在小样本或极端 p 值下表现更好,通常优于 Wald。

3. Wald(plug-in)区间 J3J3

直接用 Xˉn\bar X_n 代替 pp

J3=(XˉnzXˉn(1Xˉn)n, Xˉn+zXˉn(1Xˉn)n).J_3 = \left(\bar X_n - z\sqrt{\frac{\bar X_n(1-\bar X_n)}{n}},\ \bar X_n + z\sqrt{\frac{\bar X_n(1-\bar X_n)}{n}}\right).

优点:公式简单。缺点:在小样本或 p 极端值时覆盖率可能大幅偏离名义水平(往往低于标称覆盖率)。

结论(实务建议):若样本量较小或 Xˉn\bar X_n 接近 0 或 1,优先使用 Wilson(或精确法 Clopper–Pearson);大样本下 Wald 可接受。


六、样本量估计(针对区间长度)

目标:构造不依赖 pp 的区间,长度 ≤ δ 且置信度 95%(z=1.96z=1.96)。

使用保守上界 p(1p)1/4p(1-p) ≤ 1/4,区间半宽为 z/(2n)z/(2√n),全长为 z/nz/√n。要求:

znδn(zδ)2.\frac{z}{\sqrt{n}} ≤ δ \quad⇒\quad n ≥ \left(\frac{z}{δ}\right)^2.

例:δ=0.05δ=0.05z=1.96z=1.96n(1.96/0.05)21536.64n ≥ (1.96/0.05)^2 ≈ 1536.64 → 取整数 nmin=1537n_min=1537


七、数值示例(n=10000, p̂=0.7341, z=1.96)

计算结果(数值):

  • J1J1(保守) = (0.72430, 0.74390),长度 = 0.01960
  • J2J2(Wilson) = (0.72535, 0.74267),长度 ≈ 0.0173166
  • J3J3(Wald) = (0.72544, 0.74276),长度 ≈ 0.0173190

可见 Wilson 略优(更窄、稳定),保守区间最宽。


八、常见陷阱与答题注意事项

  1. 区分“置信区间的概率含义”:频率学下不要把置信区间的概率解释为“该次观测下 p 的概率”。
  2. 分布收敛不能保证联合/和的收敛:边缘收敛不保证和/差/函数的分布收敛(需检验联合收敛或使用独立性假设)。
  3. L^2 和依概率的区别L2inprobabilityL^2 ⇒ in probability,但 inprobabilityin probability 不一定 ⇒ L2L^2(检验时直接算二阶矩)。
  4. CLT 的适用范围:当样本量小或分布偏态严重时,慎用正态近似替代精确解。
  5. 小样本比例问题:当 nn 小且 p^ 接近 0 或 1,Wald 置信区间可能会超出 [0,1] 或覆盖率偏差大,优先 Wilson 或 Clopper-Pearson。

九、答题/写作策略(作业与考试)

  • 写证明题时明示使用的定理(例如 CLT、Slutsky、Chebyshev、不等式等)并说明适用条件。
  • 证明依概率收敛可用:P(XnX>ε)0P(|X_n - X| > ε) → 0,或给出上界并验证上界 → 0。
  • 检验 L^2 收敛时直接计算 E[(XnX)2]E[(X_n - X)^2]
  • 真/假题要给出具体反例(构造性反例更有说服力)。
  • 置信区间题目最好写出推导步骤(CLT 标准化 → 解取端点 → 若需要改写为 Wilson,显示代数步骤或写出标准 Wilson 形式)。

参考快捷表

  • 95% z 值:1.961.96
  • 90% z 值:1.6451.645
  • 99% z 值:2.5762.576