医学教育

教育研究实战系列五:形成性评价在住培过程培训中的实施——比考试更有效的“日常小测”

Dr. Ma

引言:临床大夫眼里的“评价”为什么总等于考试?

很多科室一谈“评价”,默认指向两件事:

  • 期末理论考、出科理论考
  • 一次性技能考核(穿刺、心肺复苏、缝合……)

这当然重要,但它解决的是“你有没有达标”(Summative Assessment,终结性评价)。而住培真正难的是:如何把一个人从“勉强会”带到“稳定会、独立会、能迁移”。这靠的不是期末那一下,而是过程中的“每天一点点”。

这篇文章想做三件事:

  1. 用大白话讲清楚:形成性评价(Formative Assessment)到底好在哪、为什么更有效
  2. 给你一套在临床忙碌环境也能落地的方案:越简单越有效的形成性评价“最小可行包”
  3. 把这种做法提炼成“可发表”的教学研究方法论:如何设计、收集哪些数据、怎么分析、怎么写论文

第一部分:形成性评价是什么?一句话说清楚

终结性评价像“期末考试”:打分、排名、过不过线。

形成性评价像“带教中的体检+纠偏”:不为了淘汰谁,而是为了让他下一次做得更好。它的核心不是“给分”,而是“给方向”。

你可以把形成性评价理解为一句非常实用的话:

“我看见你怎么做了(证据),我告诉你哪里做得好(保留),哪里要改(下一步动作),你下次再试一次(循环)。”


第二部分:为什么形成性评价更有效?(临床大夫能立刻感受到的优势)

优势1:把“学习”变成连续动作,而不是一次冲刺

一次考试只能告诉你“这次表现如何”。形成性评价能做到:

  • 每周都有方向
  • 每次都有改进点
  • 每个月都能看见成长曲线

对住培来说,成长是“曲线”,不是“瞬间”。

优势2:更贴近真实临床能力(不是只测知识和动作)

临床胜任力往往体现在:

  • 关键时刻的决策顺序
  • 信息收集是否完整且有重点
  • 能否向病人解释清楚并取得配合
  • 能否在不确定性下做出安全选择

这些不是一张卷子或一次技能站能完整覆盖的。形成性评价可以把评价“搬到真实场景”里。

优势3:反馈越及时,改得越快

很多科室的问题不是“没有评价”,而是评价太晚:

  • 两个月轮转结束了才说:“你沟通不行。”

学员只会觉得冤。形成性评价强调“当场/当日反馈”,让错误在还没固化之前就被纠正。

优势4:对带教者更省力——因为它减少返工

听上去反直觉:评价怎么会省力?

原因很简单:你如果每周都用一句话纠偏,学员会越来越“省心”;你如果放任到最后再批评,你会一直重复同样的带教内容,永远在补漏洞。

优势5:学员更愿意学,因为它不吓人

终结性评价天然带压力。形成性评价“低风险、高频率”,更容易让学员:

  • 承认自己不会
  • 主动问问题
  • 更愿意尝试

这对住培这种“必须敢上手”的培训尤其关键。


第三部分:临床大夫最常见的误解(以及一句话纠正)

误解1:“形成性评价不就是随口点评吗?”

纠正:随口点评是“感觉”;形成性评价需要“证据+下一步动作”。

  • 不要说:“你不够熟练。”
  • 要说:“你今天腹穿前没有口头核对凝血指标和抗凝药史(证据)。下次你在铺无菌单前,用20秒把这两项说出来(动作)。我下次再听一次(循环)。”

误解2:“我太忙了,没时间做这些”

纠正:形成性评价不等于写长表格。最有效的形成性评价,很多时候只要60–120秒。

误解3:“没有分数就不算评价”

纠正:形成性评价的核心不是分数,而是“让下一次更好”。必要时可以用极简等级(比如1–4级)辅助记录,但分数不是目的。

误解4:“形成性评价太主观,没法研究”

纠正:主观不等于不可研究。你只要把“评价标准、记录方式、频次、反馈结构”做规范,就可以形成可分析的数据,并且更贴近真实教育过程。


第四部分:形成性评价的“最小可行包”(Busy临床也能落地)

如果你只想从明天开始做,先把下面这套“极简版”用起来。

1)一分钟形成性评价:三句结构化反馈(建议作为科室统一口径)

每次床旁/操作/病例讨论后,用三句话:

  1. 你做得最好的一个点是:____(具体行为)
  2. 你最需要改的一个点是:____(具体行为)
  3. 下次你就这样做:____(可执行动作,最好可观察)

关键原则:一次只抓一个改进点。别把反馈变成“背书清单”。

2)超轻量记录:1个等级 + 1句备注(用于形成可追踪数据)

每次评价只记录两项:

  • 等级(1–4):1需要全程指导 / 2需要频繁提示 / 3偶尔提示 / 4可独立完成
  • 一句备注:本次最关键的下一步动作

这两个字段足以形成学习轨迹,也足够做教学研究。

教育研究实战系列四:学习负荷理论与成人学习理论在住培带教中的应用

Dr. Ma

引言:为什么你讲得很认真,学员还是“学不进去”?

住培带教里最常见的挫败感之一,是这种场景:

“我都讲到嗓子哑了,学员点头如捣蒜;转头让他处理同样的问题,他还是不会。”

很多时候,问题不在于你讲得不对,而在于:学员当时的“大脑带宽”已经满了,或者他并不觉得这件事和自己有关。

这篇文章把两个看似“学院派”的理论,变成你可以立刻拿去用的带教工具:

  • 学习负荷理论(Cognitive Load Theory, CLT):解决“学不进去/听不懂/记不住”的问题。
  • 成人学习理论(Adult Learning Theory / Andragogy):解决“学员不主动/不投入/学完不改”的问题。

我们会从住培真实情境出发:床旁教学、操作带教、病例讨论、OSCE/模拟训练、线上课程,把每个理论落到“你下一次带教该怎么说、怎么做、怎么评估”。


第一部分:学习负荷理论——大脑不是无限内存

把学员的大脑想象成一台电脑:

  • 工作记忆(Working memory) 很小,像电脑的内存(RAM),一次只能装很少东西。
  • 长期记忆(Long-term memory) 很大,像硬盘,真正的“能力”都在这里(临床模式识别、处置路径)。

学习负荷理论讲的是:如果你在教学时让学员的“内存”爆了,他就无法把新知识写进“硬盘”。

CLT通常把负荷分成三类,你可以把它们当成三种“占内存”的来源:

1)内在负荷(Intrinsic Load):这件事本来就难

同一个内容,对不同水平的学员“难度”不一样。

  • 让刚入科的PGY1处理“上消化道出血复苏+用药+镜下止血指征”,内在负荷极高。
  • 让总住解释“PPI为什么要静推+持续泵入”,内在负荷较低。

内在负荷的核心变量不是你讲多少,而是:学员的先验知识 vs 任务复杂度

2)外在负荷(Extraneous Load):你让他白白耗脑子了

外在负荷来自教学呈现方式的“浪费”:

  • PPT一页塞满字,你边讲边翻,学员一直在“找重点”。
  • 你讲处置流程时不断插入八卦、历史沿革、罕见并发症,学员主线被打断。
  • 床旁教学时,病房嘈杂+多人插话+同时查别的检验单,信息碎片化。

外在负荷最可惜:它占内存,却不产生学习收益。

3)促成负荷/建构负荷(Germane Load):把精力用在“长本事”上

这是学员用来“建模”的那部分脑力:总结规则、形成临床脚本、把零散知识连成路径。

例如你问:

  • “你刚才为什么先补液再上升压?说出你的判断依据。”
  • “如果把这个病例换成肝硬化患者,你的处置路径哪里要改?”

这种“逼他解释/迁移”的过程,促成负荷会上升,但这是有效负荷。

带教的目标不是把总负荷压到最低,而是:降低外在负荷,合理控制内在负荷,把节省出来的脑力转给促成负荷。


第二部分:成人学习理论——住培学员不是“被动学生”

住培学员是典型的成人学习者。成人学习理论(常用的是Knowles的成人学习原则)有几个非常“接地气”的要点:

1)要知道“为什么学”

成人学习者不太吃“将来有用”。他更吃“今天值班就要用”。

带教开场把“用处”说清楚,比先讲定义更有效:

  • “今天这10分钟,我们只解决一件事:你在夜班遇到呕血,先做哪三步能把病人稳住。”

2)希望有自主权(自我导向)

成人更愿意对自己的学习负责。你越是让他“自己选”,他越投入。

  • “你想优先练‘腹穿无菌流程’还是‘穿刺前评估与禁忌证’?”

3)自带经验,经验既是资源也是偏见

他过往处理过的病例,会成为新学习的“框架”。但也可能带来刻板印象。

你的任务是把经验“显性化”,让他看见自己在用什么规则:

  • “你刚才说‘年轻人呕血问题不大’,这个判断来自你以前见过的哪些病例?”

4)以问题为中心,而不是以知识为中心

成人学习更适合“解决问题”的结构:

  • 不要从“胃食管静脉曲张的定义”讲起。
  • 从“眼前这个呕血+低血压的病人,你怎么做”讲起。

5)动机更偏内部(成就感、胜任感、被尊重)

住培的学习动力很大部分来自:被信任、能独立、被认可。

所以反馈要具体、可执行、带尊重:

  • “你这次复苏流程很稳,下一次我希望你把‘先问抗凝药史’提前到第一轮提问里。”

第三部分:把两个理论揉进住培带教——五个高频场景的“即用模板”

下面每个场景,都给你一套“怎么讲/怎么做/怎么评估”的快速打法。

教育研究实战系列三:JASP在医学教育数据分析中的傻瓜式操作指南

Dr. Ma

引言:统计分析的“瑞士军刀”来了!

作为一名医学教育研究者,你是否也曾为这些事头疼:

“SPSS太贵,R语言太难,Excel只能算个平均数……我就想比较一下两种教学方法的效果,怎么就那么费劲?” “审稿人要求报告贝叶斯因子,我连贝叶斯是什么都还没搞懂!” “好不容易做完分析,怎么把结果表复制到Word里格式全乱套了?”

如果你也有这些烦恼,那么今天介绍的这款软件,可能会成为你的“救命稻草”——JASP (Jeffreys’ Amazing Statistics Program)

JASP是一款完全免费、开源的统计软件,由阿姆斯特丹大学开发。它最大的特点就是**“简单”**:

  • 界面友好:像SPSS一样,点菜单、拖变量就能分析,零代码基础也能上手
  • 双模分析:同一个分析(比如t检验),既能给出传统的频率学派结果(p值、置信区间),也能给出贝叶斯学派结果(贝叶斯因子、可信区间)。一次操作,两份报告。
  • APA格式一键输出:结果表格和图表都自动符合APA出版格式,可以直接复制粘贴到论文里。
  • 功能强大:从基础的描述统计、t检验,到高级的混合模型、元分析、结构方程模型,医学教育研究常用的方法基本都涵盖。

更重要的是,JASP的最新版本(0.19.3,2025年7月发布) 在稳定性和功能上都有了很大提升,配套的教程(如《Statistical Analysis in JASP: A Guide for Students》)也更新得非常及时。

今天,我们就以住培(住院医师规范化培训)教学研究中最常见的几种数据设计为例,手把手带你用JASP完成从数据整理到结果解读的全过程。我们的目标是:让统计不再可怕,让数据自己说话。


第一部分:住培教学研究,你的数据应该长什么样?

在打开JASP之前,我们先要搞清楚:你的研究问题,决定了你的数据应该怎么收集。

场景一:横断面调查 (Cross-sectional Survey)

  • 研究问题:某院住培医师的职业倦怠水平与带教老师支持度有关吗?
  • 数据设计
    • 在同一时间点,对全院200名住培医师进行问卷调查。
    • 收集两个变量:职业倦怠得分(连续变量,0-100分)、感知到的老师支持度得分(连续变量,0-100分)。
  • 分析目标:分析两个连续变量之间的相关性(Pearson’s r)。

场景二:前后测设计 (Pre-post Design)

  • 研究问题:新的“翻转课堂”教学方法,能否提高住培医师的临床决策能力?
  • 数据设计
    • 选取同一批学员(如30人)。
    • 干预前:进行一次临床决策能力测试(前测,Pretest)。
    • 实施“翻转课堂”教学(干预)。
    • 干预后:进行同样的测试(后测,Posttest)。
  • 分析目标:比较同一批人前后两次得分的差异,使用配对样本t检验

场景三:嵌套数据设计 (Nested Data Design) —— 这才是“大坑”!

  • 研究问题:不同带教老师的督导风格,会影响其组内学员的Mini-CEX评分吗?
  • 数据设计
    • 20位带教老师,每位老师带4-8名学员(共100名学员)。
    • 每位学员都接受了Mini-CEX评估,得到一个评分
    • 数据具有嵌套结构:学员(水平1)嵌套在老师(水平2)之下。
  • 分析挑战:学员的评分可能更相似(因为受同一位老师影响)。如果无视嵌套结构,直接用普通回归或t检验,就会犯**“伪重复”** 的错误。
  • 分析目标:使用线性混合模型 (Linear Mixed Models),把“老师”作为随机效应。

场景四:随机对照试验 (Randomized Controlled Trial, RCT)

  • 研究问题:基于VR的穿刺训练,是否比传统模型训练更有效?
  • 数据设计
    • 将60名学员随机分配到两组:
      • 实验组 (n=30):接受VR穿刺训练。
      • 对照组 (n=30):接受传统模型训练。
    • 训练结束后,所有人参加同一项穿刺操作考核,记录操作得分完成时间
  • 分析目标:比较两组在得分和时间上的差异,使用独立样本t检验曼-惠特尼U检验(如果数据不符合正态分布)。

小结:把你的研究对号入座,明确你的数据属于哪种“长相”。这决定了你在JASP里该点哪个菜单。

教育研究实战系列一:OSCE出科考核与传统出科考核成效分析

Dr. Ma

引言:为什么要做这个研究?

作为一名消化内科的带教老师,你是否遇到过这样的困惑:

“小王平时查房问答对答如流,理论考试也能拿85分,怎么一到真正面对消化道出血的病人,连问诊都不利索,查体也漏项?”

这其实是传统出科考核模式的通病——“高分低能”。传统的“一张卷子+一个操作(如腹穿)”模式,往往只能考出学生的记忆力(Knows)和单项操作规范(Knows How),却很难评估他们在复杂临床情境下的综合应对能力(Shows How)。

为了解决这个问题,很多教学基地开始引入 OSCE(客观结构化临床考试)。但引入OSCE之后效果到底怎么样?是仅仅形式上热闹了,还是真的能考出不一样的东西?这就需要我们通过教育研究来回答。

今天,我们就以**“住培消化内科出科考核:OSCE vs 传统模式”**为例,手把手教你如何设计并执行一项高质量的医学教育对比研究。


1. 研究设计复盘:给考试“照镜子”

理论武器:Miller’s Pyramid (米勒金字塔)

做研究不能“拍脑袋”,得有理论支撑。在这个研究中,我们的理论基石是 Miller’s Pyramid

  • 传统理论考试:主要在金字塔底部的 Knows(知识)和 Knows How(知道如何做)层面打转。
  • 传统单项技能:虽然涉及操作,但往往是脱离情境的(比如在模型上做腹穿,不需要和病人沟通)。
  • OSCE考核:通过SP(标准化病人)和案例设计,致力于评估 Shows How(演示如何做),更接近真实的临床能力。

方案设计:自身前后对照

为了让对比更有说服力,我们推荐采用 自身前后对照设计 (Self-Controlled Design)

  • 对象:同一批消化内科轮转学员(例如80人)。
  • 干预:所有学员均参加 传统出科考核(理论+单项技能) 和 OSCE出科考核(多站式)。
  • 优势:排除了学员个体差异(如学霸在两种考试中可能分都高),能更纯粹地比较两种考核工具本身的差异。

2. 统计学实战:数据会说话

收集完数据后,我们该怎么分析?这里有几个关键的统计学“招式”:

招式一:配对t检验 (Paired t-test) —— 到底谁更难?

很多老师一听到“检验”就头大。其实配对t检验的原理非常简单,它就是用来“找茬”的。

  • 小白原理: 想象一下,我们让同一个学生小明,左手画圆(传统考试),右手画方(OSCE)。如果这两种考试难度完全一样,那么小明两只手的分数差应该接近 0。 配对t检验做的事情,就是把全班80个同学的“分数差”都算出来,求个平均值,然后用数学公式算算:这个平均分差,到底是不是因为偶然运气才出现的?
  • P值 (P-value) 怎么看? P值就是“运气值”或“巧合率”。
    • 如果 P < 0.05:意思是“这种分数的差异,只有不到5%的可能性是瞎猫碰死耗子撞出来的”。换句话说,这种差异是实实在在存在的(统计学显著)
    • 如果 P > 0.05:意思是“这差别可能就是误差或者运气”,我们就不能硬说两种考试有区别。

招式二:相关性分析 (Pearson Correlation) —— 它们是一家人吗?

  • 小白原理: 这个分析是看两个分数是不是“穿一条裤子”。 比如身高和体重,通常个子越高越重,这就叫正相关。如果一个高分,另一个反而低分,那就叫负相关
  • r值 (相关系数) 怎么算? r值是一个从 -1 到 +1 的数字,代表关系的“铁”程度。
    • r = 1 (完全正相关):完全同步。传统考多少分,OSCE就按比例考多少分。警惕! 这说明你费劲搞两种考试其实是在做重复劳动,OSCE完全没有提供新信息。
    • r = 0 (无相关):毫无关系。传统考满分,OSCE可能不及格。这通常说明考核体系出问题了,甚至可能存在信度问题。
    • r = 0.4 ~ 0.6 (中度相关)这是最理想的结果! 说明它们**“和而不同”**。它们都在考医学水平(所以有相关性),但侧重点不一样(一个考背书,一个考动手),这正是OSCE存在的价值——它考出了传统考试没考出的能力(如沟通、应变)。

招式三:胜任力雷达图 (Competency Radar) —— 能力的“营养成分表”

  • 小白原理: 总分有时候会骗人。两个人都考80分,A是“理论满分+操作0分”,B是“理论操作各40分”,能力完全不同。 雷达图就像食品包装上的营养成分表,把一个干巴巴的总分,拆解成临床思维、操作规范、医患沟通、人文关怀这几个维度的“营养含量”。
  • 怎么用? 在图上画两个圈,一个代表传统考核,一个代表OSCE。 预期发现:你通常会看到,传统考核的圈在“操作规范”这一角拉得很长,但在“医患沟通”这一角几乎是塌陷的;而OSCE的圈能把“沟通”和“思维”这两个角撑开,图形更饱满。这图往PPT上一放,教学改革的成效一目了然。

3. 避坑指南:这些坑千万别踩

坑一:变量定义不清

  • 错误示范

    学员张三:考核通过(Pass)