教育研究实战系列五:形成性评价在住培过程培训中的实施——比考试更有效的“日常小测”

Page content

引言:临床大夫眼里的“评价”为什么总等于考试?

很多科室一谈“评价”,默认指向两件事:

  • 期末理论考、出科理论考
  • 一次性技能考核(穿刺、心肺复苏、缝合……)

这当然重要,但它解决的是“你有没有达标”(Summative Assessment,终结性评价)。而住培真正难的是:如何把一个人从“勉强会”带到“稳定会、独立会、能迁移”。这靠的不是期末那一下,而是过程中的“每天一点点”。

这篇文章想做三件事:

  1. 用大白话讲清楚:形成性评价(Formative Assessment)到底好在哪、为什么更有效
  2. 给你一套在临床忙碌环境也能落地的方案:越简单越有效的形成性评价“最小可行包”
  3. 把这种做法提炼成“可发表”的教学研究方法论:如何设计、收集哪些数据、怎么分析、怎么写论文

第一部分:形成性评价是什么?一句话说清楚

终结性评价像“期末考试”:打分、排名、过不过线。

形成性评价像“带教中的体检+纠偏”:不为了淘汰谁,而是为了让他下一次做得更好。它的核心不是“给分”,而是“给方向”。

你可以把形成性评价理解为一句非常实用的话:

“我看见你怎么做了(证据),我告诉你哪里做得好(保留),哪里要改(下一步动作),你下次再试一次(循环)。”


第二部分:为什么形成性评价更有效?(临床大夫能立刻感受到的优势)

优势1:把“学习”变成连续动作,而不是一次冲刺

一次考试只能告诉你“这次表现如何”。形成性评价能做到:

  • 每周都有方向
  • 每次都有改进点
  • 每个月都能看见成长曲线

对住培来说,成长是“曲线”,不是“瞬间”。

优势2:更贴近真实临床能力(不是只测知识和动作)

临床胜任力往往体现在:

  • 关键时刻的决策顺序
  • 信息收集是否完整且有重点
  • 能否向病人解释清楚并取得配合
  • 能否在不确定性下做出安全选择

这些不是一张卷子或一次技能站能完整覆盖的。形成性评价可以把评价“搬到真实场景”里。

优势3:反馈越及时,改得越快

很多科室的问题不是“没有评价”,而是评价太晚:

  • 两个月轮转结束了才说:“你沟通不行。”

学员只会觉得冤。形成性评价强调“当场/当日反馈”,让错误在还没固化之前就被纠正。

优势4:对带教者更省力——因为它减少返工

听上去反直觉:评价怎么会省力?

原因很简单:你如果每周都用一句话纠偏,学员会越来越“省心”;你如果放任到最后再批评,你会一直重复同样的带教内容,永远在补漏洞。

优势5:学员更愿意学,因为它不吓人

终结性评价天然带压力。形成性评价“低风险、高频率”,更容易让学员:

  • 承认自己不会
  • 主动问问题
  • 更愿意尝试

这对住培这种“必须敢上手”的培训尤其关键。


第三部分:临床大夫最常见的误解(以及一句话纠正)

误解1:“形成性评价不就是随口点评吗?”

纠正:随口点评是“感觉”;形成性评价需要“证据+下一步动作”。

  • 不要说:“你不够熟练。”
  • 要说:“你今天腹穿前没有口头核对凝血指标和抗凝药史(证据)。下次你在铺无菌单前,用20秒把这两项说出来(动作)。我下次再听一次(循环)。”

误解2:“我太忙了,没时间做这些”

纠正:形成性评价不等于写长表格。最有效的形成性评价,很多时候只要60–120秒。

误解3:“没有分数就不算评价”

纠正:形成性评价的核心不是分数,而是“让下一次更好”。必要时可以用极简等级(比如1–4级)辅助记录,但分数不是目的。

误解4:“形成性评价太主观,没法研究”

纠正:主观不等于不可研究。你只要把“评价标准、记录方式、频次、反馈结构”做规范,就可以形成可分析的数据,并且更贴近真实教育过程。


第四部分:形成性评价的“最小可行包”(Busy临床也能落地)

如果你只想从明天开始做,先把下面这套“极简版”用起来。

1)一分钟形成性评价:三句结构化反馈(建议作为科室统一口径)

每次床旁/操作/病例讨论后,用三句话:

  1. 你做得最好的一个点是:____(具体行为)
  2. 你最需要改的一个点是:____(具体行为)
  3. 下次你就这样做:____(可执行动作,最好可观察)

关键原则:一次只抓一个改进点。别把反馈变成“背书清单”。

2)超轻量记录:1个等级 + 1句备注(用于形成可追踪数据)

每次评价只记录两项:

  • 等级(1–4):1需要全程指导 / 2需要频繁提示 / 3偶尔提示 / 4可独立完成
  • 一句备注:本次最关键的下一步动作

这两个字段足以形成学习轨迹,也足够做教学研究。

3)把“mini-CEX / DOPS”从“考试”变成“练习”

mini-CEX、DOPS很多科室用着用着就变成“卡任务”。你要做的不是换工具,而是换定位:

  • 频次:每周1次(而不是轮转结束一次)
  • 目的:抓“下一步改什么”
  • 反馈:当场给,下一次复测同一项

同一张表,作为考试只能是一次性;作为形成性评价就会变成“迭代器”。

4)形成性评价的“最低配流程”(科室运行版)

建议你直接在科室里定一个固定节奏:

  • 每周:每个学员至少1次形成性评价(床旁/操作/沟通任选)
  • 每月:带教老师与学员5分钟回顾一次“最常见的一个问题 + 改进证据”
  • 每轮转结束:用形成性评价记录汇总,帮助终结性评价更客观

这样做的效果通常会比“增加一次考试”更明显,因为它改变的是日常行为。


第五部分:让形成性评价“更有效”的三个关键设计(方法论核心)

关键1:评价对象要小,指标要少

很多科室一上来就想把所有能力都评。结果是:记录负担爆炸,大家很快放弃。

更推荐的做法:

  • 每个轮转阶段只抓2–3个关键能力点
  • 每个能力点有清晰行为描述(看到什么算“做到了”)

例如消化内科某轮转可以只抓:

  • 呕血首轮处置顺序
  • 腹穿安全核对
  • 与病人解释检查/风险的沟通结构

关键2:评价标准要“行为化”,而不是“印象化”

把“好/一般/差”改成“做了什么”:

  • 印象化:沟通好
  • 行为化:解释检查目的→说明风险→询问顾虑→确认理解(四步齐全)

关键3:一定要闭环:下次必须复测同一项

形成性评价的威力来自“迭代”。如果你只评价一次、不给复测,它就退化成“点评”。

建议科室层面明确一句话规则:

  • “每次形成性评价都必须写一个可观察的下一步动作,并在下一次评价中优先复测这个动作。”

第六部分:把形成性评价做成教学研究——怎么设计?收什么数据?怎么分析?

下面是一套“可立项、可写论文”的研究框架。你可以直接照着改成你科室的项目。

1)理论框架建议(写在论文引言里更有力量)

可以从两条线写:

  • 程序化评价(Programmatic Assessment):用多个低风险评价点,累积形成对胜任力更可靠的判断。
  • 反馈促进学习的机制:及时、具体、可执行的反馈更可能转化为行为改变。

2)研究问题示例(任选其一)

  • “在住培过程中引入高频、低负担的形成性评价后,学员的临床任务独立性(可托付程度)是否提高?”
  • “形成性评价的反馈闭环(下一次复测)能否降低关键步骤漏项率并提升mini-CEX表现?”
  • “带教者对形成性评价的接受度、时间成本与教学效果之间有什么关系?”

3)研究设计推荐(按可行性从易到难)

设计A:前后测(单科室可做,最易落地)

  • 前测:实施前1个月,收集常规mini-CEX/DOPS、漏项率、满意度
  • 干预:实施“最小可行包”2–3个月
  • 后测:同样指标再次收集

设计B:对照组准实验(两病区/两组带教老师)

  • A病区实施形成性评价包
  • B病区维持常规
  • 结局对比:独立性等级、关键步骤漏项率、mini-CEX增长幅度

设计C:混合方法(推荐,论文更好写)

  • 量化:指标变化(见下)
  • 质性:访谈带教者与学员,解释“为什么有效/哪里卡住”

4)变量与数据表怎么设计(反向设计的关键)

建议数据按“每次形成性评价”为一行(长数据),方便做趋势与混合模型:

变量含义数据类型示例编码可能分析
resident_id学员ID分类R001配对/重复测量
teacher_id带教ID分类T08嵌套/随机效应
date日期日期2026-05-22趋势分析
task任务类型分类操作/沟通/处置分层比较
level_1to4独立性等级有序1-4秩和/有序回归
key_error关键漏项二分类0/1卡方/逻辑回归
next_action下一步动作文本20秒口头核对凝血质性编码
loop_closed是否复测闭环二分类0/1机制分析

5)指标怎么选(避免只做满意度)

主要结局(建议至少一个)

  • 任务独立性等级(1–4)
  • 关键步骤漏项率(0/1)
  • mini-CEX/DOPS评分变化(连续)

次要结局

  • 学员自我效能(简短量表)
  • 教学满意度

过程与机制指标(让论文更像“机制研究”)

  • 形成性评价频次(每人每周次数)
  • 反馈是否结构化(三句结构是否完成)
  • 是否闭环复测(loop_closed)

平衡指标(审稿人常问)

  • 带教者平均耗时(每次评价用时)
  • 带教者工作负担感(简短评分)

6)统计分析怎么做(用JASP也能完成)

按你常见数据类型给你一个“对号入座”:

  • 前后测连续变量(mini-CEX总分):配对t检验或Wilcoxon
  • 两组对比连续变量:独立样本t检验或Mann–Whitney
  • 二分类结局(漏项率):卡方检验;需要控制变量时用逻辑回归
  • 有序等级(1–4):用秩和检验做粗对比;更严谨可用有序回归(若软件模块支持)
  • 多次测量/带教嵌套:优先线性混合模型(如果你愿意做“高配版”)

结语:形成性评价的本质,是把“带教”变成可复制的改进系统

对临床带教而言,形成性评价不是增加一张表,而是换一种思路:

  • 用更小的评价单元,更频繁地纠偏
  • 用更明确的下一步动作,把反馈变成行为改变
  • 用可追踪的最简记录,让成长变成数据

当它跑顺了,你会发现:学员进步更快,带教更省心,科室也更容易把教学改革写成研究、变成成果。


本文为“教育研究实战系列”第五篇。前四篇分别为:OSCE对比研究、线性混合模型应用、JASP实操指南、学习负荷与成人学习理论应用。