这份复习总结是基于 MIT Statistics for Applications 课程第 10 章课件编写的。为了方便复习,我将内容拆解为 核心概念数学推导关键分布与链接计算算法 四个模块。


模块一:广义线性模型 (GLM) 架构

1. 线性模型 (LM) vs 广义线性模型 (GLM)

  • LM 的局限性
    • 假设 YXY|X 服从正态分布(但这不适用于计数数据、二值数据)。
    • 假设均值 μ\muXTβX^T\beta 线性相关(但这可能导致预测值超出合理范围,如概率 <0<0)。
    • 假设方差恒定(Homoscedasticity),实际上方差常随均值变化。
  • GLM 的推广方向
    • 允许 YY 服从指数族分布
    • 引入链接函数处理非线性关系。

2. GLM 的三个组成部分

  1. 随机成分 (Random Component)
    • YY 独立且服从指数族分布。
  2. 系统成分 (Systematic Component)
    • 线性预测子 (Linear Predictor):η=XTβ\eta = X^T\beta
  3. 链接函数 (Link Function) g()g(\cdot)
    • 连接均值 μ\mu 和线性预测子 η\eta
    • 公式:g(μ)=η=XTβg(\mu) = \eta = X^T\beta
    • 要求:单调可导。
    • 反函数:μ=g1(η)\mu = g^{-1}(\eta)

模块二:指数族分布 (Exponential Family)

这是 GLM 的统计推断基础。

1. 典范形式 (Canonical Form)

单参数指数族分布的密度函数通常写为:

f(y;θ,ϕ)=exp{yθb(θ)ϕ+c(y,ϕ)}f(y; \theta, \phi) = \exp\left\{ \frac{y\theta - b(\theta)}{\phi} + c(y, \phi) \right\}

  • θ\theta (Canonical parameter):典范参数,决定分布的位置(均值)。
  • ϕ\phi (Dispersion parameter):离散参数,通常已知(如 Poisson/Bernoulli 中 ϕ=1\phi=1)或作为干扰参数(如 Normal 中 ϕ=σ2\phi=\sigma^2)。
  • b(θ)b(\theta) (Cumulant function):非常关键的函数,决定了分布的矩。

2. 重要恒等式与矩 (Bartlett Identities)

通过对数似然函数 (θ)\ell(\theta) 的求导性质:

  • 一阶导期望为 0:E(θ)=0E(\frac{\partial \ell}{\partial \theta}) = 0
  • 二阶导期望与一阶导方差关系:E(2θ2)+E(θ)2=0E(\frac{\partial^2 \ell}{\partial \theta^2}) + E(\frac{\partial \ell}{\partial \theta})^2 = 0

由此推导出均值和方差的通用公式(必考点):

  1. 期望

    E(Y)=μ=b(θ)E(Y) = \mu = b'(\theta)

  2. 方差

    Var(Y)=b(θ)ϕVar(Y) = b''(\theta)\phi

    • V(μ)=b(θ)V(\mu) = b''(\theta) 称为方差函数 (Variance Function)。

模块三:常用分布与链接函数速查表

分布 范围 ϕ\phi b(θ)b(\theta) 均值 μ=b(θ)\mu=b'(\theta) 典范链接 g(μ)=θg(\mu)=\theta 对应模型
正态 (,)(-\infty, \infty) σ2\sigma^2 θ2/2\theta^2/2 θ\theta μ\mu (Identity) 线性回归
泊松 {0,1,}\{0, 1, \dots\} 11 eθe^\theta eθe^\theta log(μ)\log(\mu) Poisson 回归
伯努利 {0,1}\{0, 1\} 11 log(1+eθ)\log(1+e^\theta) eθ1+eθ\frac{e^\theta}{1+e^\theta} log(μ1μ)\log(\frac{\mu}{1-\mu}) (Logit) Logistic 回归
Gamma (0,)(0, \infty) 1/ν1/\nu log(θ)-\log(-\theta) 1/θ-1/\theta 1/μ1/\mu (Reciprocal) Gamma 回归
  • 定义:使得 θ=XTβ\theta = X^T\beta 的链接函数,即 g=(b)1g = (b')^{-1}
  • 优势
    • 数学处理简化。
    • 对数似然函数是 β\beta严格凹函数 (Strictly Concave)
    • MLE 存在且唯一
    • 在优化时,Fisher Scoring 与 Newton-Raphson 方法等价。

模块四:参数估计 (MLE 与 算法)

1. 对数似然函数

n(β)=i=1nYiθib(θi)ϕ+const\ell_n(\beta) = \sum_{i=1}^n \frac{Y_i\theta_i - b(\theta_i)}{\phi} + \text{const}

利用链式法则,我们需要建立 βημθ\beta \to \eta \to \mu \to \theta 的联系。

2. 优化算法

由于 n(β)=0\nabla \ell_n(\beta) = 0 通常没有解析解,需要迭代求解。

  • Newton-Raphson 法

    • 利用 Hessian 矩阵 H(β)H_{\ell}(\beta)(二阶导)。
    • 更新:β(k+1)=β(k)[H(β(k))]1(β(k))\beta^{(k+1)} = \beta^{(k)} - [H_{\ell}(\beta^{(k)})]^{-1} \nabla \ell(\beta^{(k)})
  • Fisher Scoring 法

    • 利用 Fisher 信息矩阵 I(β)=E[H(β)]I(\beta) = E[-H_{\ell}(\beta)] 代替 Hessian。
    • 理由:Hessian 可能包含随机项 YY 或是负定的,而 Fisher 信息矩阵总是正定(或半正定)且是确定性的。
    • 更新:β(k+1)=β(k)+[I(β(k))]1(β(k))\beta^{(k+1)} = \beta^{(k)} + [I(\beta^{(k)})]^{-1} \nabla \ell(\beta^{(k)})
    • 结论:如果使用典范链接,则观测到的 Hessian 等于期望 Hessian,两种算法完全相同。

3. 迭代加权最小二乘法 (IRLS)

GLM 的标准求解算法,本质上是将 Fisher Scoring 转化为加权最小二乘的形式。

核心变量

  • 权重矩阵 WW

    W=diag(1Var(Yi)[g(μi)]2)W = \text{diag}\left( \frac{1}{Var(Y_i) [g'(\mu_i)]^2} \right)

    (注意:如果是典范链接,公式简化为 W=diag(b(θi))W = \text{diag}(b''(\theta_i)))
  • 调整响应变量 (Adjusted Response) ZZ

    Zi=ηi+(Yiμi)g(μi)Z_i = \eta_i + (Y_i - \mu_i)g'(\mu_i)

    (直观理解:这是对 YY 在当前预测值处的泰勒一阶展开)

IRLS 迭代步骤

  1. 选定初始 β(0)\beta^{(0)}
  2. 计算线性预测子 η=XTβ\eta = X^T\beta 和均值 μ=g1(η)\mu = g^{-1}(\eta)
  3. 计算调整变量 ZZ 和权重 WW
  4. 求解加权最小二乘问题:

    β(k+1)=(XTWX)1XTWZ\beta^{(k+1)} = (X^TWX)^{-1} X^TWZ

  5. 重复直到收敛。

复习自测题 (Cheat Sheet)

在复习结束时,尝试回答以下问题:

  1. 为什么要用 GLM?(答:解决 YY 非正态、方差非恒定、均值范围受限的问题)
  2. 指数族分布的均值和方差怎么求?(答:μ=b(θ)\mu=b'(\theta), Var=b(θ)ϕVar=b''(\theta)\phi
  3. 什么是 Canonical Link?Logistic 回归的 Canonical Link 是什么?(答:使 θ=η\theta=\eta 的链接;是 Logit 函数)
  4. IRLS 的全称是什么?它是为了解决什么问题?(答:Iteratively Re-weighted Least Squares;用于数值求解 GLM 的 MLE)
  5. 在 Canonical Link 下,Newton-Raphson 和 Fisher Scoring 有什么关系?(答:完全等价,因为 Hessian Matrix 不包含随机变量 YY,即 Observed Information = Expected Information)。

这份文档将深入剖析 广义线性模型 (GLM) 中的每一个关键参数符号。我们将从“我们需要求解的参数”、“模型内部的中间变量”以及“底层统计分布参数”三个维度进行详解。


1. 核心参数(我们需要求解的目标)

在实际应用中,当你运行代码拟合模型时,主要关心的就是 β\beta

β\beta (Beta) —— 回归系数 (Coefficients)

  • 定义:权重向量,β=[β0,β1,,βp]T\beta = [\beta_0, \beta_1, \dots, \beta_p]^T
  • 数学含义:衡量每个特征 XX 对预测结果的影响力。
  • 解释
    • 在线性回归中:X1X_1 每增加 1,μ\mu 增加 β1\beta_1
    • 在 GLM 中(非线性):解释取决于链接函数。
      • Logistic 回归X1X_1 每增加 1,对数几率 (Log-odds) 增加 β1\beta_1
      • Poisson 回归X1X_1 每增加 1,均值 μ\mu 变为原来的 eβ1e^{\beta_1} 倍(倍数效应)。
  • 求解方式:通过最大似然估计 (MLE) 算出。

2. 结构参数(模型的骨架)

这是模型在计算过程中,连接“输入”和“输出”的桥梁。

η\eta (Eta) —— 线性预测子 (Linear Predictor)

  • 定义η=XTβ=β0+β1X1++βpXp\eta = X^T\beta = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_p
  • 直观含义:这是模型内部的“原始得分”。
  • 特点:取值范围通常是 (,+)(-\infty, +\infty)。不管我们要预测的是概率还是计数,η\eta 永远是特征的线性组合,它是 GLM 中唯一的“线性”部分。

μ\mu (Mu) —— 期望均值 (Expected Mean)

  • 定义μ=E(YX)\mu = E(Y|X)
  • 直观含义:这是模型最终输出的预测值(转化为真实世界的尺度)。
  • 特点:取值受限制。
    • 二分类问题:μ\mu 是概率,必须在 (0,1)(0, 1) 之间。
    • 计数问题:μ\mu 是平均次数,必须 >0>0
  • η\eta 的关系μ=g1(η)\mu = g^{-1}(\eta),即通过反链接函数从“原始得分”算出“预测值”。
  • 定义g(μ)=ηg(\mu) = \eta
  • 作用:坐标映射器。它把受限的 μ\mu 映射到无限制的 η\eta 空间,使得我们可以用线性公式进行拟合。

3. 统计分布参数(底层的数学引擎)

这部分参数来自 指数族分布 (Exponential Family) 的定义公式:

f(y)=exp{yθb(θ)ϕ+c(y,ϕ)}f(y) = \exp\left\{ \frac{y\theta - b(\theta)}{\phi} + c(y, \phi) \right\}

这是理解 GLM 数学性质(如方差、IRLS 算法)的关键。

θ\theta (Theta) —— 典范参数 (Canonical Parameter)

  • 定义:决定分布位置(均值)的最核心参数。
  • 重要性:在 GLM 中,均值 μ\muθ\theta 的函数。
  • 关系μ=b(θ)\mu = b'(\theta)bb 函数的一阶导数)。
  • 特例:当我们使用典范链接 (Canonical Link) 时,数学形式会变得极其完美:θ=η\theta = \eta。这意味着线性预测子直接预测了分布的典范参数。
    • 例如 Logistic 回归中,η\eta 就是 Log-odds,而 Log-odds 正是 Bernoulli 分布的 θ\theta

ϕ\phi (Phi) —— 离散参数 (Dispersion Parameter)

  • 定义:决定分布胖瘦(方差/尺度)的参数。
  • 直观含义:数据的“噪音”水平。
  • 分类讨论
    • 正态分布ϕ=σ2\phi = \sigma^2。方差独立于均值,我们需要估计它。
    • 泊松/伯努利分布ϕ=1\phi = 1。这是因为在这类分布中,方差完全由均值决定(例如泊松分布中 Var=μVar = \mu),不需要额外的参数来控制噪音。

b(θ)b(\theta) —— 累积量函数 (Cumulant Function)

  • 定义:指数族分布公式中的那个 b(θ)b(\theta) 项。
  • 作用:它是分布的“DNA”,决定了该分布的所有矩(均值、方差等)。
  • 核心公式(背诵)
    1. 一阶导b(θ)=μb'(\theta) = \mu (算出均值)。
    2. 二阶导b(θ)=V(μ)b''(\theta) = V(\mu) (方差函数部分)。
    3. 真实方差Var(Y)=b(θ)×ϕVar(Y) = b''(\theta) \times \phi

4. 算法参数(IRLS 迭代过程中的参数)

这部分参数只存在于计算机求解 β\beta 的过程中(Iteratively Re-weighted Least Squares)。

ZZ —— 调整响应变量 (Adjusted Response)

  • 含义:由于 YY 和预测值是非线性关系,我们在每一步迭代时,把问题局部线性化,构造一个“假想的目标值” ZZ
  • 公式Zη+(Yμ)×导数Z \approx \eta + (Y - \mu) \times \text{\text{导数}}
  • 通俗理解:这是当前预测的线性值 η\eta,加上根据预测误差 (YμY-\mu) 修正的一个量。

WW —— 迭代权重 (Weights)

  • 含义:在每一步迭代中,我们要解一个加权最小二乘问题,每个数据点的重要性不同。
  • 逻辑:方差越大的点,所含信息量越少(噪音大),权重 WW 越小。
  • 公式W1Var(Y)W \propto \frac{1}{Var(Y)}

总结图谱

为了方便记忆,请看下方的参数流向图:

  1. 输入XX (特征), β\beta (系数)
  2. 线性组合η=XTβ\eta = X^T\beta (线性预测子)
    • (如果是典范链接,此时 θ=η\theta = \eta)
  3. 链接映射μ=g1(η)\mu = g^{-1}(\eta) (预测均值)
  4. 产生数据YExpFamily(μ,ϕ)Y \sim \text{ExpFamily}(\mu, \phi)
    • 均值由 μ\mu 决定。
    • 方差由 b(θ)b''(\theta)ϕ\phi 共同决定。

复习重点

  • 做应用时,关注 X,β,μ,g()X, \beta, \mu, g(\cdot)
  • 推导数学性质或方差时,关注 θ,ϕ,b(θ)\theta, \phi, b(\theta)