GLM

这份复习总结是基于 MIT Statistics for Applications 课程第 10 章课件编写的。为了方便复习，我将内容拆解为 核心概念、数学推导、关键分布与链接、计算算法 四个模块。

模块一：广义线性模型 (GLM) 架构

1. 线性模型 (LM) vs 广义线性模型 (GLM)

LM 的局限性：
- 假设 $Y|X$ 服从正态分布（但这不适用于计数数据、二值数据）。
- 假设均值 $\mu$ 与 $X^T\beta$ 线性相关（但这可能导致预测值超出合理范围，如概率 $<0$ ）。
- 假设方差恒定（Homoscedasticity），实际上方差常随均值变化。
GLM 的推广方向：
- 允许 $Y$ 服从指数族分布。
- 引入链接函数处理非线性关系。

2. GLM 的三个组成部分

随机成分 (Random Component)：
- $Y$ 独立且服从指数族分布。
系统成分 (Systematic Component)：
- 线性预测子 (Linear Predictor)： $\eta = X^T\beta$ 。
链接函数 (Link Function) $g(\cdot)$ $g (\cdot)$ ：
- 连接均值 $\mu$ 和线性预测子 $\eta$ 。
- 公式： $g(\mu) = \eta = X^T\beta$ 。
- 要求：单调可导。
- 反函数： $\mu = g^{-1}(\eta)$ 。

模块二：指数族分布 (Exponential Family)

这是 GLM 的统计推断基础。

1. 典范形式 (Canonical Form)

单参数指数族分布的密度函数通常写为：

$f(y; \theta, \phi) = \exp\left\{ \frac{y\theta - b(\theta)}{\phi} + c(y, \phi) \right\}$

$\theta$ (Canonical parameter)：典范参数，决定分布的位置（均值）。
$\phi$ (Dispersion parameter)：离散参数，通常已知（如 Poisson/Bernoulli 中 $\phi=1$ ）或作为干扰参数（如 Normal 中 $\phi=\sigma^2$ ）。
$b(\theta)$ (Cumulant function)：非常关键的函数，决定了分布的矩。

2. 重要恒等式与矩 (Bartlett Identities)

通过对数似然函数 $\ell(\theta)$ 的求导性质：

一阶导期望为 0： $E(\frac{\partial \ell}{\partial \theta}) = 0$
二阶导期望与一阶导方差关系： $E(\frac{\partial^2 \ell}{\partial \theta^2}) + E(\frac{\partial \ell}{\partial \theta})^2 = 0$

由此推导出均值和方差的通用公式（必考点）：

期望：
$E(Y) = \mu = b'(\theta)$
方差：
$Var(Y) = b''(\theta)\phi$
- $V(\mu) = b''(\theta)$ 称为方差函数 (Variance Function)。

模块三：常用分布与链接函数速查表

分布	范围	$\phi$	$b(\theta)$	均值 $\mu=b'(\theta)$	典范链接 $g(\mu)=\theta$	对应模型
正态	$(-\infty, \infty)$	$\sigma^2$	$\theta^2/2$	$\theta$	$\mu$ (Identity)	线性回归
泊松	$\{0, 1, \dots\}$	$1$	$e^\theta$	$e^\theta$	$\log(\mu)$	Poisson 回归
伯努利	$\{0, 1\}$	$1$	$\log(1+e^\theta)$	$\frac{e^\theta}{1+e^\theta}$	$\log(\frac{\mu}{1-\mu})$ (Logit)	Logistic 回归
Gamma	$(0, \infty)$	$1/\nu$	$-\log(-\theta)$	$-1/\theta$	$1/\mu$ (Reciprocal)	Gamma 回归

典范链接 (Canonical Link) 的特殊性

定义：使得 $\theta = X^T\beta$ 的链接函数，即 $g = (b')^{-1}$ 。
优势：
- 数学处理简化。
- 对数似然函数是 $\beta$ 的严格凹函数 (Strictly Concave)。
- MLE 存在且唯一。
- 在优化时，Fisher Scoring 与 Newton-Raphson 方法等价。

模块四：参数估计 (MLE 与算法)

1. 对数似然函数

$\ell_n(\beta) = \sum_{i=1}^n \frac{Y_i\theta_i - b(\theta_i)}{\phi} + \text{const}$

利用链式法则，我们需要建立 $\beta \to \eta \to \mu \to \theta$ 的联系。

2. 优化算法

由于 $\nabla \ell_n(\beta) = 0$ 通常没有解析解，需要迭代求解。

Newton-Raphson 法：
- 利用 Hessian 矩阵 $H_{\ell}(\beta)$ （二阶导）。
- 更新： $\beta^{(k+1)} = \beta^{(k)} - [H_{\ell}(\beta^{(k)})]^{-1} \nabla \ell(\beta^{(k)})$ 。
Fisher Scoring 法：
- 利用 Fisher 信息矩阵 $I(\beta) = E[-H_{\ell}(\beta)]$ 代替 Hessian。
- 理由：Hessian 可能包含随机项 $Y$ 或是负定的，而 Fisher 信息矩阵总是正定（或半正定）且是确定性的。
- 更新： $\beta^{(k+1)} = \beta^{(k)} + [I(\beta^{(k)})]^{-1} \nabla \ell(\beta^{(k)})$ 。
- 结论：如果使用典范链接，则观测到的 Hessian 等于期望 Hessian，两种算法完全相同。

3. 迭代加权最小二乘法 (IRLS)

GLM 的标准求解算法，本质上是将 Fisher Scoring 转化为加权最小二乘的形式。

核心变量：

权重矩阵 $W$ ：
$W = \text{diag}\left( \frac{1}{Var(Y_i) [g'(\mu_i)]^2} \right)$
(注意：如果是典范链接，公式简化为 $W = \text{diag}(b''(\theta_i))$ )
调整响应变量 (Adjusted Response) $Z$ ：
$Z_i = \eta_i + (Y_i - \mu_i)g'(\mu_i)$
(直观理解：这是对 $Y$ 在当前预测值处的泰勒一阶展开)

IRLS 迭代步骤：

选定初始 $\beta^{(0)}$ 。
计算线性预测子 $\eta = X^T\beta$ 和均值 $\mu = g^{-1}(\eta)$ 。
计算调整变量 $Z$ 和权重 $W$ 。
求解加权最小二乘问题：
$\beta^{(k+1)} = (X^TWX)^{-1} X^TWZ$
重复直到收敛。

复习自测题 (Cheat Sheet)

在复习结束时，尝试回答以下问题：

为什么要用 GLM？（答：解决 $Y$ 非正态、方差非恒定、均值范围受限的问题）
指数族分布的均值和方差怎么求？（答： $\mu=b'(\theta)$ , $Var=b''(\theta)\phi$ ）
什么是 Canonical Link？Logistic 回归的 Canonical Link 是什么？（答：使 $\theta=\eta$ 的链接；是 Logit 函数）
IRLS 的全称是什么？它是为了解决什么问题？（答：Iteratively Re-weighted Least Squares；用于数值求解 GLM 的 MLE）
在 Canonical Link 下，Newton-Raphson 和 Fisher Scoring 有什么关系？（答：完全等价，因为 Hessian Matrix 不包含随机变量 $Y$ ，即 Observed Information = Expected Information）。

这份文档将深入剖析 广义线性模型 (GLM) 中的每一个关键参数符号。我们将从“我们需要求解的参数”、“模型内部的中间变量”以及“底层统计分布参数”三个维度进行详解。

1. 核心参数（我们需要求解的目标）

在实际应用中，当你运行代码拟合模型时，主要关心的就是 $\beta$ 。

$\beta$ (Beta) —— 回归系数 (Coefficients)

定义：权重向量， $\beta = [\beta_0, \beta_1, \dots, \beta_p]^T$ 。
数学含义：衡量每个特征 $X$ 对预测结果的影响力。
解释：
- 在线性回归中： $X_1$ 每增加 1， $\mu$ 增加 $\beta_1$ 。
- 在 GLM 中（非线性）：解释取决于链接函数。
  - Logistic 回归： $X_1$ 每增加 1，对数几率 (Log-odds) 增加 $\beta_1$ 。
  - Poisson 回归： $X_1$ 每增加 1，均值 $\mu$ 变为原来的 $e^{\beta_1}$ 倍（倍数效应）。
求解方式：通过最大似然估计 (MLE) 算出。

2. 结构参数（模型的骨架）

这是模型在计算过程中，连接“输入”和“输出”的桥梁。

$\eta$ (Eta) —— 线性预测子 (Linear Predictor)

定义： $\eta = X^T\beta = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_p$ 。
直观含义：这是模型内部的“原始得分”。
特点：取值范围通常是 $(-\infty, +\infty)$ 。不管我们要预测的是概率还是计数， $\eta$ 永远是特征的线性组合，它是 GLM 中唯一的“线性”部分。

$\mu$ (Mu) —— 期望均值 (Expected Mean)

定义： $\mu = E(Y|X)$ 。
直观含义：这是模型最终输出的预测值（转化为真实世界的尺度）。
特点：取值受限制。
- 二分类问题： $\mu$ 是概率，必须在 $(0, 1)$ 之间。
- 计数问题： $\mu$ 是平均次数，必须 $>0$ 。
与 $\eta$ 的关系： $\mu = g^{-1}(\eta)$ ，即通过反链接函数从“原始得分”算出“预测值”。

$g(\cdot)$ —— 链接函数 (Link Function)

定义： $g(\mu) = \eta$ 。
作用：坐标映射器。它把受限的 $\mu$ 映射到无限制的 $\eta$ 空间，使得我们可以用线性公式进行拟合。

3. 统计分布参数（底层的数学引擎）

这部分参数来自 指数族分布 (Exponential Family) 的定义公式：

$f(y) = \exp\left\{ \frac{y\theta - b(\theta)}{\phi} + c(y, \phi) \right\}$

这是理解 GLM 数学性质（如方差、IRLS 算法）的关键。

$\theta$ (Theta) —— 典范参数 (Canonical Parameter)

定义：决定分布位置（均值）的最核心参数。
重要性：在 GLM 中，均值 $\mu$ 是 $\theta$ 的函数。
关系： $\mu = b'(\theta)$ （ $b$ 函数的一阶导数）。
特例：当我们使用典范链接 (Canonical Link) 时，数学形式会变得极其完美： $\theta = \eta$ 。这意味着线性预测子直接预测了分布的典范参数。
- 例如 Logistic 回归中， $\eta$ 就是 Log-odds，而 Log-odds 正是 Bernoulli 分布的 $\theta$ 。

$\phi$ (Phi) —— 离散参数 (Dispersion Parameter)

定义：决定分布胖瘦（方差/尺度）的参数。
直观含义：数据的“噪音”水平。
分类讨论：
- 正态分布： $\phi = \sigma^2$ 。方差独立于均值，我们需要估计它。
- 泊松/伯努利分布： $\phi = 1$ 。这是因为在这类分布中，方差完全由均值决定（例如泊松分布中 $Var = \mu$ ），不需要额外的参数来控制噪音。

$b(\theta)$ —— 累积量函数 (Cumulant Function)

定义：指数族分布公式中的那个 $b(\theta)$ 项。
作用：它是分布的“DNA”，决定了该分布的所有矩（均值、方差等）。
核心公式（背诵）：
1. 一阶导： $b'(\theta) = \mu$ （算出均值）。
2. 二阶导： $b''(\theta) = V(\mu)$ （方差函数部分）。
3. 真实方差： $Var(Y) = b''(\theta) \times \phi$ 。

4. 算法参数（IRLS 迭代过程中的参数）

这部分参数只存在于计算机求解 $\beta$ 的过程中（Iteratively Re-weighted Least Squares）。

$Z$ —— 调整响应变量 (Adjusted Response)

含义：由于 $Y$ 和预测值是非线性关系，我们在每一步迭代时，把问题局部线性化，构造一个“假想的目标值” $Z$ 。
公式： $Z \approx \eta + (Y - \mu) \times \text{\text{导数}}$ 。
通俗理解：这是当前预测的线性值 $\eta$ ，加上根据预测误差 ( $Y-\mu$ ) 修正的一个量。

$W$ —— 迭代权重 (Weights)

含义：在每一步迭代中，我们要解一个加权最小二乘问题，每个数据点的重要性不同。
逻辑：方差越大的点，所含信息量越少（噪音大），权重 $W$ 越小。
公式： $W \propto \frac{1}{Var(Y)}$ 。

总结图谱

为了方便记忆，请看下方的参数流向图：

输入： $X$ (特征), $\beta$ (系数)
线性组合： $\eta = X^T\beta$ $η = X^{T} β$ (线性预测子)
- (如果是典范链接，此时 $\theta = \eta$ )
链接映射： $\mu = g^{-1}(\eta)$ (预测均值)
产生数据： $Y \sim \text{ExpFamily}(\mu, \phi)$ $Y \sim ExpFamily (μ, ϕ)$
- 均值由 $\mu$ 决定。
- 方差由 $b''(\theta)$ 和 $\phi$ 共同决定。

复习重点：

做应用时，关注 $X, \beta, \mu, g(\cdot)$ 。
推导数学性质或方差时，关注 $\theta, \phi, b(\theta)$ 。