多层数据分析

在住院医师规范化培训（住培）的督导管理中，我们常常面临这样的数据困境：同一名带教老师评估了多位学员，同一科室有多位老师，同一医院又有多个科室。这些数据天然存在“嵌套”结构——学员嵌套于老师，老师嵌套于科室，科室嵌套于医院。

如果强行用传统的线性回归（如 t 检验、ANOVA）去分析，会犯一个严重的统计学错误：忽视组内相关性。这就像把同一个家庭里的兄弟姐妹当作完全独立的个体去比较，而忽略了他们共享的家庭环境。结果就是，p 值可能变得异常“显著”，导致我们得出错误的结论。

线性混合模型（Linear Mixed Models, LMM），又称多水平模型（Multilevel Models）或层次线性模型（Hierarchical Linear Models, HLM），正是为解决这类嵌套数据而生。本文将带你一步步理解 HLM 的核心思想，并手把手教你如何将其应用到住培督导管理的研究中。

一、为什么传统方法会“失灵”？——从一个真实场景说起

假设我们想评估一项新的“督导反馈培训”对带教老师评分质量的影响。我们招募了 20 位老师，其中 10 位接受培训（实验组），10 位维持常规（对照组）。培训后，每位老师对自己指导的 5 名学员进行临床胜任力评分（满分 100 分）。

错误做法：将 100 条评分记录（20 位老师 × 5 名学员）直接扔进独立样本 t 检验，比较实验组和对照组的评分差异。

问题所在：来自同一位老师的 5 个评分高度相关（这位老师手松，分数普遍偏高；那位老师手紧，分数普遍偏低）。这 100 条数据并非 100 个独立观测，而是 20 个“簇”。t 检验要求的“独立性”假设被严重违反。

HLM 的解决思路：明确承认数据的两层结构。

水平 1 (学员层)：学员的评分。
水平 2 (老师层)：老师所属的组别（实验/对照）、老师自身的风格等。

HLM 会同时估计两个层面的效应：既看组别差异（固定效应），也允许每位老师有自己的“基线分数”（随机截距）。这样，分析结果才真实可靠。

二、 HLM 核心概念：固定效应 vs. 随机效应

理解 HLM，关键在于分清 固定效应 和 随机效应。

固定效应：你感兴趣、想要直接估计和检验的效应。通常是我们研究的自变量。
- 例子：督导培训（有 vs. 无）、学员性别、轮转时长。我们关心这些因素对评分的影响有多大，并且这个影响在整个研究群体中是一致的。
随机效应：描述数据层次结构中更高层次的变异来源。我们不关心每个具体个体的值，但承认它们的存在会影响模型。
- 随机截距：允许每组（如每位老师）有自己的起点。比如，王老师整体评分比李老师高 5 分。
- 随机斜率：允许自变量（如培训效果）对每组的影响不同。比如，培训对王老师带的学员效果特别好，但对李老师带的学员效果一般。

一个生动的比喻：想象研究不同施肥方案（固定效应：方案A、B）对玉米产量的影响。试验田分布在 5 个不同的村庄（随机效应：村庄）。HLM 会告诉我们：1) 平均来看，方案A比方案B增产多少（固定效应检验）；2) 不同村庄之间的基础产量差异有多大（随机截距方差）；3) 增产效果是否因村庄而异（随机斜率方差）。

一、 为什么传统方法会“失灵”？——从一个真实场景说起

二、 HLM 核心概念：固定效应 vs. 随机效应

一、为什么传统方法会“失灵”？——从一个真实场景说起