教育研究实战系列五：形成性评价在住培过程培训中的实施——比考试更有效的“日常小测”

Dr. Ma

2026-05-22

教育研究实战

Page content

引言：临床大夫眼里的“评价”为什么总等于考试？

很多科室一谈“评价”，默认指向两件事：

期末理论考、出科理论考
一次性技能考核（穿刺、心肺复苏、缝合……）

这当然重要，但它解决的是“你有没有达标”（Summative Assessment，终结性评价）。而住培真正难的是：如何把一个人从“勉强会”带到“稳定会、独立会、能迁移”。这靠的不是期末那一下，而是过程中的“每天一点点”。

这篇文章想做三件事：

用大白话讲清楚：形成性评价（Formative Assessment）到底好在哪、为什么更有效。
给你一套在临床忙碌环境也能落地的方案：越简单越有效的形成性评价“最小可行包”。
把这种做法提炼成“可发表”的教学研究方法论：如何设计、收集哪些数据、怎么分析、怎么写论文。

第一部分：形成性评价是什么？一句话说清楚

终结性评价像“期末考试”：打分、排名、过不过线。

形成性评价像“带教中的体检+纠偏”：不为了淘汰谁，而是为了让他下一次做得更好。它的核心不是“给分”，而是“给方向”。

你可以把形成性评价理解为一句非常实用的话：

“我看见你怎么做了（证据），我告诉你哪里做得好（保留），哪里要改（下一步动作），你下次再试一次（循环）。”

第二部分：为什么形成性评价更有效？（临床大夫能立刻感受到的优势）

优势1：把“学习”变成连续动作，而不是一次冲刺

一次考试只能告诉你“这次表现如何”。形成性评价能做到：

每周都有方向
每次都有改进点
每个月都能看见成长曲线

对住培来说，成长是“曲线”，不是“瞬间”。

优势2：更贴近真实临床能力（不是只测知识和动作）

临床胜任力往往体现在：

关键时刻的决策顺序
信息收集是否完整且有重点
能否向病人解释清楚并取得配合
能否在不确定性下做出安全选择

这些不是一张卷子或一次技能站能完整覆盖的。形成性评价可以把评价“搬到真实场景”里。

优势3：反馈越及时，改得越快

很多科室的问题不是“没有评价”，而是评价太晚：

两个月轮转结束了才说：“你沟通不行。”

学员只会觉得冤。形成性评价强调“当场/当日反馈”，让错误在还没固化之前就被纠正。

优势4：对带教者更省力——因为它减少返工

听上去反直觉：评价怎么会省力？

原因很简单：你如果每周都用一句话纠偏，学员会越来越“省心”；你如果放任到最后再批评，你会一直重复同样的带教内容，永远在补漏洞。

优势5：学员更愿意学，因为它不吓人

终结性评价天然带压力。形成性评价“低风险、高频率”，更容易让学员：

承认自己不会
主动问问题
更愿意尝试

这对住培这种“必须敢上手”的培训尤其关键。

第三部分：临床大夫最常见的误解（以及一句话纠正）

误解1：“形成性评价不就是随口点评吗？”

纠正：随口点评是“感觉”；形成性评价需要“证据+下一步动作”。

不要说：“你不够熟练。”
要说：“你今天腹穿前没有口头核对凝血指标和抗凝药史（证据）。下次你在铺无菌单前，用20秒把这两项说出来（动作）。我下次再听一次（循环）。”

误解2：“我太忙了，没时间做这些”

纠正：形成性评价不等于写长表格。最有效的形成性评价，很多时候只要60–120秒。

误解3：“没有分数就不算评价”

纠正：形成性评价的核心不是分数，而是“让下一次更好”。必要时可以用极简等级（比如1–4级）辅助记录，但分数不是目的。

误解4：“形成性评价太主观，没法研究”

纠正：主观不等于不可研究。你只要把“评价标准、记录方式、频次、反馈结构”做规范，就可以形成可分析的数据，并且更贴近真实教育过程。

第四部分：形成性评价的“最小可行包”（Busy临床也能落地）

如果你只想从明天开始做，先把下面这套“极简版”用起来。

1）一分钟形成性评价：三句结构化反馈（建议作为科室统一口径）

每次床旁/操作/病例讨论后，用三句话：

你做得最好的一个点是：____（具体行为）
你最需要改的一个点是：____（具体行为）
下次你就这样做：____（可执行动作，最好可观察）

关键原则：一次只抓一个改进点。别把反馈变成“背书清单”。

2）超轻量记录：1个等级 + 1句备注（用于形成可追踪数据）

每次评价只记录两项：

等级（1–4）：1需要全程指导 / 2需要频繁提示 / 3偶尔提示 / 4可独立完成
一句备注：本次最关键的下一步动作

这两个字段足以形成学习轨迹，也足够做教学研究。

3）把“mini-CEX / DOPS”从“考试”变成“练习”

mini-CEX、DOPS很多科室用着用着就变成“卡任务”。你要做的不是换工具，而是换定位：

频次：每周1次（而不是轮转结束一次）
目的：抓“下一步改什么”
反馈：当场给，下一次复测同一项

同一张表，作为考试只能是一次性；作为形成性评价就会变成“迭代器”。

4）形成性评价的“最低配流程”（科室运行版）

建议你直接在科室里定一个固定节奏：

每周：每个学员至少1次形成性评价（床旁/操作/沟通任选）
每月：带教老师与学员5分钟回顾一次“最常见的一个问题 + 改进证据”
每轮转结束：用形成性评价记录汇总，帮助终结性评价更客观

这样做的效果通常会比“增加一次考试”更明显，因为它改变的是日常行为。

第五部分：让形成性评价“更有效”的三个关键设计（方法论核心）

关键1：评价对象要小，指标要少

很多科室一上来就想把所有能力都评。结果是：记录负担爆炸，大家很快放弃。

更推荐的做法：

每个轮转阶段只抓2–3个关键能力点
每个能力点有清晰行为描述（看到什么算“做到了”）

例如消化内科某轮转可以只抓：

呕血首轮处置顺序
腹穿安全核对
与病人解释检查/风险的沟通结构

关键2：评价标准要“行为化”，而不是“印象化”

把“好/一般/差”改成“做了什么”：

印象化：沟通好
行为化：解释检查目的→说明风险→询问顾虑→确认理解（四步齐全）

关键3：一定要闭环：下次必须复测同一项

形成性评价的威力来自“迭代”。如果你只评价一次、不给复测，它就退化成“点评”。

建议科室层面明确一句话规则：

“每次形成性评价都必须写一个可观察的下一步动作，并在下一次评价中优先复测这个动作。”

第六部分：把形成性评价做成教学研究——怎么设计？收什么数据？怎么分析？

下面是一套“可立项、可写论文”的研究框架。你可以直接照着改成你科室的项目。

1）理论框架建议（写在论文引言里更有力量）

可以从两条线写：

程序化评价（Programmatic Assessment）：用多个低风险评价点，累积形成对胜任力更可靠的判断。
反馈促进学习的机制：及时、具体、可执行的反馈更可能转化为行为改变。

2）研究问题示例（任选其一）

“在住培过程中引入高频、低负担的形成性评价后，学员的临床任务独立性（可托付程度）是否提高？”
“形成性评价的反馈闭环（下一次复测）能否降低关键步骤漏项率并提升mini-CEX表现？”
“带教者对形成性评价的接受度、时间成本与教学效果之间有什么关系？”

3）研究设计推荐（按可行性从易到难）

设计A：前后测（单科室可做，最易落地）

前测：实施前1个月，收集常规mini-CEX/DOPS、漏项率、满意度
干预：实施“最小可行包”2–3个月
后测：同样指标再次收集

设计B：对照组准实验（两病区/两组带教老师）

A病区实施形成性评价包
B病区维持常规
结局对比：独立性等级、关键步骤漏项率、mini-CEX增长幅度

设计C：混合方法（推荐，论文更好写）

量化：指标变化（见下）
质性：访谈带教者与学员，解释“为什么有效/哪里卡住”

4）变量与数据表怎么设计（反向设计的关键）

建议数据按“每次形成性评价”为一行（长数据），方便做趋势与混合模型：

变量	含义	数据类型	示例编码	可能分析
resident_id	学员ID	分类	R001	配对/重复测量
teacher_id	带教ID	分类	T08	嵌套/随机效应
date	日期	日期	2026-05-22	趋势分析
task	任务类型	分类	操作/沟通/处置	分层比较
level_1to4	独立性等级	有序	1-4	秩和/有序回归
key_error	关键漏项	二分类	0/1	卡方/逻辑回归
next_action	下一步动作	文本	20秒口头核对凝血	质性编码
loop_closed	是否复测闭环	二分类	0/1	机制分析

5）指标怎么选（避免只做满意度）

主要结局（建议至少一个）

任务独立性等级（1–4）
关键步骤漏项率（0/1）
mini-CEX/DOPS评分变化（连续）

次要结局

学员自我效能（简短量表）
教学满意度

过程与机制指标（让论文更像“机制研究”）

形成性评价频次（每人每周次数）
反馈是否结构化（三句结构是否完成）
是否闭环复测（loop_closed）

平衡指标（审稿人常问）

带教者平均耗时（每次评价用时）
带教者工作负担感（简短评分）

6）统计分析怎么做（用JASP也能完成）

按你常见数据类型给你一个“对号入座”：

前后测连续变量（mini-CEX总分）：配对t检验或Wilcoxon
两组对比连续变量：独立样本t检验或Mann–Whitney
二分类结局（漏项率）：卡方检验；需要控制变量时用逻辑回归
有序等级（1–4）：用秩和检验做粗对比；更严谨可用有序回归（若软件模块支持）
多次测量/带教嵌套：优先线性混合模型（如果你愿意做“高配版”）

结语：形成性评价的本质，是把“带教”变成可复制的改进系统

对临床带教而言，形成性评价不是增加一张表，而是换一种思路：

用更小的评价单元，更频繁地纠偏
用更明确的下一步动作，把反馈变成行为改变
用可追踪的最简记录，让成长变成数据

当它跑顺了，你会发现：学员进步更快，带教更省心，科室也更容易把教学改革写成研究、变成成果。

本文为“教育研究实战系列”第五篇。前四篇分别为：OSCE对比研究、线性混合模型应用、JASP实操指南、学习负荷与成人学习理论应用。