教育研究实战系列二：线性混合模型在住培督导管理中的应用指南

Dr. Ma

2026-03-24

Page content

在住院医师规范化培训（住培）的督导管理中，我们常常面临这样的数据困境：同一名带教老师评估了多位学员，同一科室有多位老师，同一医院又有多个科室。这些数据天然存在“嵌套”结构——学员嵌套于老师，老师嵌套于科室，科室嵌套于医院。

如果强行用传统的线性回归（如 t 检验、ANOVA）去分析，会犯一个严重的统计学错误：忽视组内相关性。这就像把同一个家庭里的兄弟姐妹当作完全独立的个体去比较，而忽略了他们共享的家庭环境。结果就是，p 值可能变得异常“显著”，导致我们得出错误的结论。

线性混合模型（Linear Mixed Models, LMM），又称多水平模型（Multilevel Models）或层次线性模型（Hierarchical Linear Models, HLM），正是为解决这类嵌套数据而生。本文将带你一步步理解 HLM 的核心思想，并手把手教你如何将其应用到住培督导管理的研究中。

一、为什么传统方法会“失灵”？——从一个真实场景说起

假设我们想评估一项新的“督导反馈培训”对带教老师评分质量的影响。我们招募了 20 位老师，其中 10 位接受培训（实验组），10 位维持常规（对照组）。培训后，每位老师对自己指导的 5 名学员进行临床胜任力评分（满分 100 分）。

错误做法：将 100 条评分记录（20 位老师 × 5 名学员）直接扔进独立样本 t 检验，比较实验组和对照组的评分差异。

问题所在：来自同一位老师的 5 个评分高度相关（这位老师手松，分数普遍偏高；那位老师手紧，分数普遍偏低）。这 100 条数据并非 100 个独立观测，而是 20 个“簇”。t 检验要求的“独立性”假设被严重违反。

HLM 的解决思路：明确承认数据的两层结构。

水平 1 (学员层)：学员的评分。
水平 2 (老师层)：老师所属的组别（实验/对照）、老师自身的风格等。

HLM 会同时估计两个层面的效应：既看组别差异（固定效应），也允许每位老师有自己的“基线分数”（随机截距）。这样，分析结果才真实可靠。

二、 HLM 核心概念：固定效应 vs. 随机效应

理解 HLM，关键在于分清 固定效应 和 随机效应。

固定效应：你感兴趣、想要直接估计和检验的效应。通常是我们研究的自变量。
- 例子：督导培训（有 vs. 无）、学员性别、轮转时长。我们关心这些因素对评分的影响有多大，并且这个影响在整个研究群体中是一致的。
随机效应：描述数据层次结构中更高层次的变异来源。我们不关心每个具体个体的值，但承认它们的存在会影响模型。
- 随机截距：允许每组（如每位老师）有自己的起点。比如，王老师整体评分比李老师高 5 分。
- 随机斜率：允许自变量（如培训效果）对每组的影响不同。比如，培训对王老师带的学员效果特别好，但对李老师带的学员效果一般。

一个生动的比喻：想象研究不同施肥方案（固定效应：方案A、B）对玉米产量的影响。试验田分布在 5 个不同的村庄（随机效应：村庄）。HLM 会告诉我们：1) 平均来看，方案A比方案B增产多少（固定效应检验）；2) 不同村庄之间的基础产量差异有多大（随机截距方差）；3) 增产效果是否因村庄而异（随机斜率方差）。

三、住培督导中的典型应用场景

场景一：评估督导培训项目的效果（两层模型）

水平2：带教老师（n=20）。变量：group (实验/对照), teaching_exp (教学年限)。
水平1：学员评分（n=100）。变量：score (临床胜任力评分)。
研究问题：控制了老师教学年限后，培训是否显著提升了老师的评分质量（即学员平均分）？
模型表述（R语言风格）：
```
lmer(score ~ group + teaching_exp + (1 | teacher_id), data = mydata)
```
(1 | teacher_id) 表示对每位老师估计一个随机截距。

场景二：分析学员成长轨迹（三层模型）

水平3：培训基地/医院（n=5）。
水平2：轮转科室（n=20，嵌套于医院）。
水平1：学员在不同时间点的 Mini-CEX 评分（n=500次评估）。
研究问题：学员的临床能力随时间如何增长？增长趋势在不同科室或医院间是否有差异？
模型表述：
```
lmer(score ~ time + (1 + time | hospital/科室/学员))
```
这是一个包含随机截距和随机斜率（随时间变化）的复杂模型。

场景三：比较不同科室的教学质量

挑战：学员成绩受其个人能力和科室教学环境的共同影响。
HLM 优势：可以将学员成绩的总变异分解为“学员个体间差异”和“科室间差异”。如果科室间的变异占比很大，说明科室环境对学员成绩影响显著，值得深入调查原因。

四、手把手实战：用 R 语言拟合一个两层 HLM

我们以 场景一 为例，模拟一份数据并进行分析。

步骤1：模拟数据

# 加载必要的包
library(lme4)
library(lmerTest) # 用于获取 p 值
library(ggplot2)

# 设置随机种子，确保结果可重现
set.seed(123)

# 模拟20位老师的数据
n_teachers <- 20
teachers <- data.frame(
  teacher_id = 1:n_teachers,
  group = rep(c("train", "control"), each = n_teachers/2),
  teaching_exp = round(rnorm(n_teachers, mean=10, sd=3))
)

# 模拟每位老师评估5名学员，共100条记录
n_students_per_teacher <- 5
data_list <- list()
for(i in 1:n_teachers){
  teacher_effect <- rnorm(1, mean=0, sd=5) # 随机截距：老师个人风格
  if(teachers$group[i] == "train"){
    training_effect <- 5 # 培训组平均分高5分
  } else {
    training_effect <- 0
  }
  exp_effect <- 0.3 * teachers$teaching_exp[i] # 教学年限每多1年，评分高0.3分
  
  student_scores <- 70 + teacher_effect + training_effect + exp_effect + rnorm(n_students_per_teacher, mean=0, sd=4)
  
  data_list[[i]] <- data.frame(
    teacher_id = teachers$teacher_id[i],
    group = teachers$group[i],
    teaching_exp = teachers$teaching_exp[i],
    score = student_scores
  )
}
mydata <- do.call(rbind, data_list)

步骤2：拟合混合模型

# 拟合模型：固定效应为组别和教学年限，随机效应为老师ID的随机截距
model <- lmer(score ~ group + teaching_exp + (1 | teacher_id), data = mydata)

# 查看模型摘要
summary(model)

关键输出解读：

Fixed effects:
- group train 的估计值（例如 4.8）就是培训的效应量，其 p 值 (Pr(>|t|)) 若小于 0.05，说明培训效果显著。
- teaching_exp 的估计值（例如 0.28）表示教学年限每增加一年，评分平均增加 0.28 分。
Random effects:
- teacher_id (Intercept) 的方差（例如 22.5）代表了老师个人风格造成的变异大小。这个值越大，说明老师间的评分风格差异越大。
- Residual 方差（例如 15.1）代表了学员个体层面的随机误差。

步骤3：可视化结果

# 绘制各老师评分均值的点图
teacher_means <- aggregate(score ~ teacher_id + group, data=mydata, mean)
ggplot(teacher_means, aes(x=group, y=score, color=group)) +
  geom_jitter(width=0.1, size=3) +
  stat_summary(fun=mean, geom="point", shape=18, size=5, color="black") +
  labs(title="带教老师平均评分（按组别）", x="组别", y="平均临床胜任力评分") +
  theme_minimal()

五、避坑指南：HLM 常见误区

误区：忽视嵌套结构，直接使用普通回归。
- 后果：标准误被低估，假阳性率飙升，可能把本不显著的结果误判为显著。
- 检查方法：计算组内相关系数（ICC）。ICC > 0.05 就意味着嵌套效应不可忽略。使用 performance::icc(model) 计算。
误区：过度追求复杂模型，加入过多随机效应。
- 后果：模型无法收敛，或结果难以解释。
- 原则：从简单模型开始，逐步增加随机效应。每次增加后，用似然比检验 (anova(model_simple, model_complex)) 判断是否有必要。
误区：忽略模型假设检验。
- HLM 同样要求：残差正态性、同方差性、线性关系。
- 检查工具：plot(model) 检查残差图，qqnorm(resid(model)) 检查正态性。
误区：错误解释随机效应。
- 牢记：随机效应的意义在于描述变异的结构，而不是检验某个具体老师或科室是否“显著”。我们关注的是随机效应的方差是否显著（可通过 ranova() 或 Bootstrap 置信区间判断）。

六、总结与行动建议

线性混合模型是处理住培督导中嵌套数据的利器。它让我们能够：

更准确地评估干预措施（如培训项目）的真实效果。
更深入地理解变异来源（是学员个体差异大，还是科室/老师的影响更大？）。
更科学地进行资源分配与政策制定（如果科室间差异大，就该重点抓科室建设）。

给研究者的三步建议：

数据审计：拿到数据后，第一件事就是画一张数据结构图，明确有几个层次，每个层次有多少单位。
简单起步：先拟合一个只包含随机截距的模型，计算 ICC。如果 ICC 很小（<0.05），或许可以用普通回归。否则，坚定地使用 HLM。
迭代优化：根据研究问题，逐步加入固定效应和可能的随机斜率。用模型比较方法选择最优模型。

住培督导管理的科学化，离不开对数据的尊重与正确分析。希望这篇指南能帮助你跨越 HLM 的技术门槛，让你的研究结论更加坚实可信。

进阶思考：如果你的数据中，老师不仅评估了学员的终点成绩，还在不同时间点进行了多次评估（形成成长轨迹），那么你就需要构建一个三层增长模型。这将是下一篇实战文章的主题。

附：常用 R 包与资源

核心包：lme4（模型拟合）, lmerTest（p 值）, performance（模型诊断与 ICC）。
可视化：ggplot2, sjPlot（可生成漂亮的模型结果表格与图表）。
学习资源：Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling (Snijders & Bosker)，以及 UCLA 统计咨询网站上的众多 HLM 教程。

一、 为什么传统方法会“失灵”？——从一个真实场景说起