GLM
这份复习总结是基于 MIT Statistics for Applications 课程第 10 章课件编写的。为了方便复习,我将内容拆解为 核心概念、数学推导、关键分布与链接、计算算法 四个模块。
模块一:广义线性模型 (GLM) 架构
1. 线性模型 (LM) vs 广义线性模型 (GLM)
- LM 的局限性:
- 假设 服从正态分布(但这不适用于计数数据、二值数据)。
- 假设均值 与 线性相关(但这可能导致预测值超出合理范围,如概率 )。
- 假设方差恒定(Homoscedasticity),实际上方差常随均值变化。
- GLM 的推广方向:
- 允许 服从指数族分布。
- 引入链接函数处理非线性关系。
2. GLM 的三个组成部分
- 随机成分 (Random Component):
- 独立且服从指数族分布。
- 系统成分 (Systematic Component):
- 线性预测子 (Linear Predictor):。
- 链接函数 (Link Function) :
- 连接均值 和线性预测子 。
- 公式:。
- 要求:单调可导。
- 反函数:。
模块二:指数族分布 (Exponential Family)
这是 GLM 的统计推断基础。
1. 典范形式 (Canonical Form)
单参数指数族分布的密度函数通常写为:
- (Canonical parameter):典范参数,决定分布的位置(均值)。
- (Dispersion parameter):离散参数,通常已知(如 Poisson/Bernoulli 中 )或作为干扰参数(如 Normal 中 )。
- (Cumulant function):非常关键的函数,决定了分布的矩。
2. 重要恒等式与矩 (Bartlett Identities)
通过对数似然函数 的求导性质:
- 一阶导期望为 0:
- 二阶导期望与一阶导方差关系:
由此推导出均值和方差的通用公式(必考点):
- 期望:
- 方差:
- 称为方差函数 (Variance Function)。
模块三:常用分布与链接函数速查表
| 分布 | 范围 | 均值 | 典范链接 | 对应模型 | ||
|---|---|---|---|---|---|---|
| 正态 | (Identity) | 线性回归 | ||||
| 泊松 | Poisson 回归 | |||||
| 伯努利 | (Logit) | Logistic 回归 | ||||
| Gamma | (Reciprocal) | Gamma 回归 |
典范链接 (Canonical Link) 的特殊性
- 定义:使得 的链接函数,即 。
- 优势:
- 数学处理简化。
- 对数似然函数是 的严格凹函数 (Strictly Concave)。
- MLE 存在且唯一。
- 在优化时,Fisher Scoring 与 Newton-Raphson 方法等价。
模块四:参数估计 (MLE 与 算法)
1. 对数似然函数
利用链式法则,我们需要建立 的联系。
2. 优化算法
由于 通常没有解析解,需要迭代求解。
-
Newton-Raphson 法:
- 利用 Hessian 矩阵 (二阶导)。
- 更新:。
-
Fisher Scoring 法:
- 利用 Fisher 信息矩阵 代替 Hessian。
- 理由:Hessian 可能包含随机项 或是负定的,而 Fisher 信息矩阵总是正定(或半正定)且是确定性的。
- 更新:。
- 结论:如果使用典范链接,则观测到的 Hessian 等于期望 Hessian,两种算法完全相同。
3. 迭代加权最小二乘法 (IRLS)
GLM 的标准求解算法,本质上是将 Fisher Scoring 转化为加权最小二乘的形式。
核心变量:
- 权重矩阵 :
(注意:如果是典范链接,公式简化为 )
- 调整响应变量 (Adjusted Response) :
(直观理解:这是对 在当前预测值处的泰勒一阶展开)
IRLS 迭代步骤:
- 选定初始 。
- 计算线性预测子 和均值 。
- 计算调整变量 和权重 。
- 求解加权最小二乘问题:
- 重复直到收敛。
复习自测题 (Cheat Sheet)
在复习结束时,尝试回答以下问题:
- 为什么要用 GLM?(答:解决 非正态、方差非恒定、均值范围受限的问题)
- 指数族分布的均值和方差怎么求?(答:, )
- 什么是 Canonical Link?Logistic 回归的 Canonical Link 是什么?(答:使 的链接;是 Logit 函数)
- IRLS 的全称是什么?它是为了解决什么问题?(答:Iteratively Re-weighted Least Squares;用于数值求解 GLM 的 MLE)
- 在 Canonical Link 下,Newton-Raphson 和 Fisher Scoring 有什么关系?(答:完全等价,因为 Hessian Matrix 不包含随机变量 ,即 Observed Information = Expected Information)。
这份文档将深入剖析 广义线性模型 (GLM) 中的每一个关键参数符号。我们将从“我们需要求解的参数”、“模型内部的中间变量”以及“底层统计分布参数”三个维度进行详解。
1. 核心参数(我们需要求解的目标)
在实际应用中,当你运行代码拟合模型时,主要关心的就是 。
(Beta) —— 回归系数 (Coefficients)
- 定义:权重向量,。
- 数学含义:衡量每个特征 对预测结果的影响力。
- 解释:
- 在线性回归中: 每增加 1, 增加 。
- 在 GLM 中(非线性):解释取决于链接函数。
- Logistic 回归: 每增加 1,对数几率 (Log-odds) 增加 。
- Poisson 回归: 每增加 1,均值 变为原来的 倍(倍数效应)。
- 求解方式:通过最大似然估计 (MLE) 算出。
2. 结构参数(模型的骨架)
这是模型在计算过程中,连接“输入”和“输出”的桥梁。
(Eta) —— 线性预测子 (Linear Predictor)
- 定义:。
- 直观含义:这是模型内部的“原始得分”。
- 特点:取值范围通常是 。不管我们要预测的是概率还是计数, 永远是特征的线性组合,它是 GLM 中唯一的“线性”部分。
(Mu) —— 期望均值 (Expected Mean)
- 定义:。
- 直观含义:这是模型最终输出的预测值(转化为真实世界的尺度)。
- 特点:取值受限制。
- 二分类问题: 是概率,必须在 之间。
- 计数问题: 是平均次数,必须 。
- 与 的关系:,即通过反链接函数从“原始得分”算出“预测值”。
—— 链接函数 (Link Function)
- 定义:。
- 作用:坐标映射器。它把受限的 映射到无限制的 空间,使得我们可以用线性公式进行拟合。
3. 统计分布参数(底层的数学引擎)
这部分参数来自 指数族分布 (Exponential Family) 的定义公式:
这是理解 GLM 数学性质(如方差、IRLS 算法)的关键。
(Theta) —— 典范参数 (Canonical Parameter)
- 定义:决定分布位置(均值)的最核心参数。
- 重要性:在 GLM 中,均值 是 的函数。
- 关系:( 函数的一阶导数)。
- 特例:当我们使用典范链接 (Canonical Link) 时,数学形式会变得极其完美:。这意味着线性预测子直接预测了分布的典范参数。
- 例如 Logistic 回归中, 就是 Log-odds,而 Log-odds 正是 Bernoulli 分布的 。
(Phi) —— 离散参数 (Dispersion Parameter)
- 定义:决定分布胖瘦(方差/尺度)的参数。
- 直观含义:数据的“噪音”水平。
- 分类讨论:
- 正态分布:。方差独立于均值,我们需要估计它。
- 泊松/伯努利分布:。这是因为在这类分布中,方差完全由均值决定(例如泊松分布中 ),不需要额外的参数来控制噪音。
—— 累积量函数 (Cumulant Function)
- 定义:指数族分布公式中的那个 项。
- 作用:它是分布的“DNA”,决定了该分布的所有矩(均值、方差等)。
- 核心公式(背诵):
- 一阶导: (算出均值)。
- 二阶导: (方差函数部分)。
- 真实方差:。
4. 算法参数(IRLS 迭代过程中的参数)
这部分参数只存在于计算机求解 的过程中(Iteratively Re-weighted Least Squares)。
—— 调整响应变量 (Adjusted Response)
- 含义:由于 和预测值是非线性关系,我们在每一步迭代时,把问题局部线性化,构造一个“假想的目标值” 。
- 公式:。
- 通俗理解:这是当前预测的线性值 ,加上根据预测误差 () 修正的一个量。
—— 迭代权重 (Weights)
- 含义:在每一步迭代中,我们要解一个加权最小二乘问题,每个数据点的重要性不同。
- 逻辑:方差越大的点,所含信息量越少(噪音大),权重 越小。
- 公式:。
总结图谱
为了方便记忆,请看下方的参数流向图:
- 输入: (特征), (系数)
- 线性组合: (线性预测子)
- (如果是典范链接,此时 )
- 链接映射: (预测均值)
- 产生数据:
- 均值由 决定。
- 方差由 和 共同决定。
复习重点:
- 做应用时,关注 。
- 推导数学性质或方差时,关注 。
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.



