statistics1
|Word Count:1.9k|Reading Time:8mins
MIT 18.650 — Problem Set 1 知识点与注意事项归纳
本笔记涵盖:随机变量收敛(多种形式)、中心极限定理、Bernoulli/Binomial/Poisson 的性质、三种常见置信区间(保守 / Wilson / Wald)、样本量估计、以及常见陷阱与答题策略。
一、随机变量的几种收敛形式(及相互关系)
四种常见收敛类型
-
几乎处处收敛 (almost sure, a.s.)
记号:Xn→X(a.s.)
定义:P(limn→∞Xn=X)=1
-
依概率收敛 (in probability)
记号:Xn→X(P)
定义:对任意 ε>0,P(∣Xn−X∣>ε)→0
-
L^p 收敛(以 L^2 为例)
记号:Xn→X(L2)
定义:E[∣Xn−X∣2]→0(均方收敛)
-
分布收敛 (in distribution)
记号:Xn→X(d)
定义:分布函数 FXn(t)→FX(t) 在 FX 连续点处成立
强度与蕴含关系
- a.s.⇒inprobability⇒indistribution
- L2⇒inprobability(但反过来不一定成立)
- 注意:indistribution 最弱;仅保证边缘分布收敛,不保证任何依赖关系/联合分布的收敛。
常见反直觉示例
- 有序列会依概率收敛但不在 L^2 收敛:如题中例子
P(Xn=1/n)=1−1/n2,P(Xn=n)=1/n2。
该序列 Xn→0(依概率),但 E[Xn2]≈1,不趋 0 → 无 L^2 收敛。
二、中心极限定理(CLT)
经典形式
若 X1,...,Xn i.i.d.,E[Xi]=μ,Var[Xi]=σ2<∞,则
σn(Xˉn−μ)dN(0,1).
推论
注意
- CLT 是渐近结果,小样本时近似可能不够好,特别是二项/比例在极端 p 值或小 n 时要谨慎(推荐使用 Wilson 或精确方法)。
三、Bernoulli / Binomial / Poisson 的要点
Bernoulli(p)
- 若 Xi∼Bernoulli(p),则
- E[Xi]=p
- Var(Xi)=p(1−p)
- 样本均值 Xˉn=(1/n)∑Xi:
- E[Xˉn]=p
- Var(Xˉn)=p(1−p)/n
- 因此 Xˉn→p 在 L^2(且依概率)收敛
Binomial(n,p)
- ∑i=1nXi∼Binomial(n,p)
Poisson(λ_n)
- 若 λn→0 则 Poisson(λn)→0 依概率(因为 P(Xn=0)=e−λn→1)
四、置信区间(频率学视角)
基本概念
- 置信区间(Confidence Interval, CI)是重复抽样下具有一定覆盖率的区间估计。
- 在频率学意义下不能说“在此次观测下 p 在区间的概率是 95%”,应该说“这个区间构造方法在重复抽样下覆盖真值 p 的概率为 95%”。
CLT 构建的理论区间
若 p 已知(理论情况),则
p∈Xˉn±z1−α/2np(1−p).
其中 z1−α/2 为标准正态上分位点(例如 95% → 1.96)。
五、三种常见的 Bernoulli 比例置信区间(比较)
1. 保守区间 J1(不依赖 p)
使用 p(1−p)≤1/4 得到:
J1=(Xˉn−2nz, Xˉn+2nz).
优点:不依赖未知 p,保证覆盖(渐近或保守)。缺点:通常过宽。
2. Wilson(score)区间 J2
通过解不等式(由 CLT 的标准化平方两边操作)得到:
J2=1+nz2Xˉn+2nz2±znXˉn(1−Xˉn)+4n2z2.
性质:较稳健、在小样本或极端 p 值下表现更好,通常优于 Wald。
3. Wald(plug-in)区间 J3
直接用 Xˉn 代替 p:
J3=(Xˉn−znXˉn(1−Xˉn), Xˉn+znXˉn(1−Xˉn)).
优点:公式简单。缺点:在小样本或 p 极端值时覆盖率可能大幅偏离名义水平(往往低于标称覆盖率)。
结论(实务建议):若样本量较小或 Xˉn 接近 0 或 1,优先使用 Wilson(或精确法 Clopper–Pearson);大样本下 Wald 可接受。
六、样本量估计(针对区间长度)
目标:构造不依赖 p 的区间,长度 ≤ δ 且置信度 95%(z=1.96)。
使用保守上界 p(1−p)≤1/4,区间半宽为 z/(2√n),全长为 z/√n。要求:
nz≤δ⇒n≥(δz)2.
例:δ=0.05,z=1.96 → n≥(1.96/0.05)2≈1536.64 → 取整数 nmin=1537。
七、数值示例(n=10000, p̂=0.7341, z=1.96)
计算结果(数值):
- J1(保守) = (0.72430, 0.74390),长度 = 0.01960
- J2(Wilson) = (0.72535, 0.74267),长度 ≈ 0.0173166
- J3(Wald) = (0.72544, 0.74276),长度 ≈ 0.0173190
可见 Wilson 略优(更窄、稳定),保守区间最宽。
八、常见陷阱与答题注意事项
- 区分“置信区间的概率含义”:频率学下不要把置信区间的概率解释为“该次观测下 p 的概率”。
- 分布收敛不能保证联合/和的收敛:边缘收敛不保证和/差/函数的分布收敛(需检验联合收敛或使用独立性假设)。
- L^2 和依概率的区别:L2⇒inprobability,但 inprobability 不一定 ⇒ L2(检验时直接算二阶矩)。
- CLT 的适用范围:当样本量小或分布偏态严重时,慎用正态近似替代精确解。
- 小样本比例问题:当 n 小且 p^ 接近 0 或 1,Wald 置信区间可能会超出 [0,1] 或覆盖率偏差大,优先 Wilson 或 Clopper-Pearson。
九、答题/写作策略(作业与考试)
- 写证明题时明示使用的定理(例如 CLT、Slutsky、Chebyshev、不等式等)并说明适用条件。
- 证明依概率收敛可用:P(∣Xn−X∣>ε)→0,或给出上界并验证上界 → 0。
- 检验 L^2 收敛时直接计算 E[(Xn−X)2]。
- 真/假题要给出具体反例(构造性反例更有说服力)。
- 置信区间题目最好写出推导步骤(CLT 标准化 → 解取端点 → 若需要改写为 Wilson,显示代数步骤或写出标准 Wilson 形式)。
参考快捷表
- 95% z 值:1.96
- 90% z 值:1.645
- 99% z 值:2.576