多层数据分析

教育研究实战系列二:线性混合模型在住培督导管理中的应用指南

在住院医师规范化培训(住培)的督导管理中,我们常常面临这样的数据困境:同一名带教老师评估了多位学员,同一科室有多位老师,同一医院又有多个科室。这些数据天然存在“嵌套”结构——学员嵌套于老师,老师嵌套于科室,科室嵌套于医院。

如果强行用传统的线性回归(如 t 检验、ANOVA)去分析,会犯一个严重的统计学错误:忽视组内相关性。这就像把同一个家庭里的兄弟姐妹当作完全独立的个体去比较,而忽略了他们共享的家庭环境。结果就是,p 值可能变得异常“显著”,导致我们得出错误的结论。

线性混合模型(Linear Mixed Models, LMM),又称多水平模型(Multilevel Models)或层次线性模型(Hierarchical Linear Models, HLM),正是为解决这类嵌套数据而生。本文将带你一步步理解 HLM 的核心思想,并手把手教你如何将其应用到住培督导管理的研究中。

一、 为什么传统方法会“失灵”?——从一个真实场景说起

假设我们想评估一项新的“督导反馈培训”对带教老师评分质量的影响。我们招募了 20 位老师,其中 10 位接受培训(实验组),10 位维持常规(对照组)。培训后,每位老师对自己指导的 5 名学员进行临床胜任力评分(满分 100 分)。

错误做法:将 100 条评分记录(20 位老师 × 5 名学员)直接扔进独立样本 t 检验,比较实验组和对照组的评分差异。

问题所在:来自同一位老师的 5 个评分高度相关(这位老师手松,分数普遍偏高;那位老师手紧,分数普遍偏低)。这 100 条数据并非 100 个独立观测,而是 20 个“簇”。t 检验要求的“独立性”假设被严重违反。

HLM 的解决思路:明确承认数据的两层结构。

  • 水平 1 (学员层):学员的评分。
  • 水平 2 (老师层):老师所属的组别(实验/对照)、老师自身的风格等。

HLM 会同时估计两个层面的效应:既看组别差异(固定效应),也允许每位老师有自己的“基线分数”(随机截距)。这样,分析结果才真实可靠。

二、 HLM 核心概念:固定效应 vs. 随机效应

理解 HLM,关键在于分清 固定效应随机效应

  • 固定效应:你感兴趣、想要直接估计和检验的效应。通常是我们研究的自变量。
    • 例子:督导培训(有 vs. 无)、学员性别、轮转时长。我们关心这些因素对评分的影响有多大,并且这个影响在整个研究群体中是一致的。
  • 随机效应:描述数据层次结构中更高层次的变异来源。我们不关心每个具体个体的值,但承认它们的存在会影响模型。
    • 随机截距:允许每组(如每位老师)有自己的起点。比如,王老师整体评分比李老师高 5 分。
    • 随机斜率:允许自变量(如培训效果)对每组的影响不同。比如,培训对王老师带的学员效果特别好,但对李老师带的学员效果一般。

一个生动的比喻: 想象研究不同施肥方案(固定效应:方案A、B)对玉米产量的影响。试验田分布在 5 个不同的村庄(随机效应:村庄)。HLM 会告诉我们:1) 平均来看,方案A比方案B增产多少(固定效应检验);2) 不同村庄之间的基础产量差异有多大(随机截距方差);3) 增产效果是否因村庄而异(随机斜率方差)。