教育研究实战系列三：JASP在医学教育数据分析中的傻瓜式操作指南

Dr. Ma

2026-03-24

Page content

引言：统计分析的“瑞士军刀”来了！

作为一名医学教育研究者，你是否也曾为这些事头疼：

“SPSS太贵，R语言太难，Excel只能算个平均数……我就想比较一下两种教学方法的效果，怎么就那么费劲？” “审稿人要求报告贝叶斯因子，我连贝叶斯是什么都还没搞懂！” “好不容易做完分析，怎么把结果表复制到Word里格式全乱套了？”

如果你也有这些烦恼，那么今天介绍的这款软件，可能会成为你的“救命稻草”——JASP (Jeffreys’ Amazing Statistics Program)。

JASP是一款完全免费、开源的统计软件，由阿姆斯特丹大学开发。它最大的特点就是**“简单”**：

界面友好：像SPSS一样，点菜单、拖变量就能分析，零代码基础也能上手。
双模分析：同一个分析（比如t检验），既能给出传统的频率学派结果（p值、置信区间），也能给出贝叶斯学派结果（贝叶斯因子、可信区间）。一次操作，两份报告。
APA格式一键输出：结果表格和图表都自动符合APA出版格式，可以直接复制粘贴到论文里。
功能强大：从基础的描述统计、t检验，到高级的混合模型、元分析、结构方程模型，医学教育研究常用的方法基本都涵盖。

更重要的是，JASP的最新版本（0.19.3，2025年7月发布） 在稳定性和功能上都有了很大提升，配套的教程（如《Statistical Analysis in JASP: A Guide for Students》）也更新得非常及时。

今天，我们就以住培（住院医师规范化培训）教学研究中最常见的几种数据设计为例，手把手带你用JASP完成从数据整理到结果解读的全过程。我们的目标是：让统计不再可怕，让数据自己说话。

第一部分：住培教学研究，你的数据应该长什么样？

在打开JASP之前，我们先要搞清楚：你的研究问题，决定了你的数据应该怎么收集。

场景一：横断面调查 (Cross-sectional Survey)

研究问题：某院住培医师的职业倦怠水平与带教老师支持度有关吗？
数据设计：
- 在同一时间点，对全院200名住培医师进行问卷调查。
- 收集两个变量：职业倦怠得分（连续变量，0-100分）、感知到的老师支持度得分（连续变量，0-100分）。
分析目标：分析两个连续变量之间的相关性（Pearson’s r）。

场景二：前后测设计 (Pre-post Design)

研究问题：新的“翻转课堂”教学方法，能否提高住培医师的临床决策能力？
数据设计：
- 选取同一批学员（如30人）。
- 干预前：进行一次临床决策能力测试（前测，Pretest）。
- 实施“翻转课堂”教学（干预）。
- 干预后：进行同样的测试（后测，Posttest）。
分析目标：比较同一批人前后两次得分的差异，使用配对样本t检验。

场景三：嵌套数据设计 (Nested Data Design) —— 这才是“大坑”！

研究问题：不同带教老师的督导风格，会影响其组内学员的Mini-CEX评分吗？
数据设计：
- 20位带教老师，每位老师带4-8名学员（共100名学员）。
- 每位学员都接受了Mini-CEX评估，得到一个评分。
- 数据具有嵌套结构：学员（水平1）嵌套在老师（水平2）之下。
分析挑战：学员的评分可能更相似（因为受同一位老师影响）。如果无视嵌套结构，直接用普通回归或t检验，就会犯**“伪重复”** 的错误。
分析目标：使用线性混合模型 (Linear Mixed Models)，把“老师”作为随机效应。

场景四：随机对照试验 (Randomized Controlled Trial, RCT)

研究问题：基于VR的穿刺训练，是否比传统模型训练更有效？
数据设计：
- 将60名学员随机分配到两组：
  - 实验组 (n=30)：接受VR穿刺训练。
  - 对照组 (n=30)：接受传统模型训练。
- 训练结束后，所有人参加同一项穿刺操作考核，记录操作得分和完成时间。
分析目标：比较两组在得分和时间上的差异，使用独立样本t检验或曼-惠特尼U检验（如果数据不符合正态分布）。

小结：把你的研究对号入座，明确你的数据属于哪种“长相”。这决定了你在JASP里该点哪个菜单。

第二部分：JASP快速上手——10分钟搞定安装与数据导入

步骤1：下载与安装

访问官方网站：https://jasp-stats.org/
点击 “Download”，选择你的操作系统（Windows/macOS/Linux）。
运行安装程序，一路“下一步”即可。安装完成后，桌面会出现JASP图标。

步骤2：认识JASP的“三块屏幕”

打开JASP，你会看到三个主要区域：

数据视图 (Data View)：中间最大的表格，用于查看和编辑原始数据。
分析菜单 (Analyses Menu)：左侧边栏，所有统计方法都在这里，分类清晰。
结果输出 (Results Panel)：右侧边栏，分析结果（表格、图表）会实时显示在这里。你调整任何选项，结果都会立刻更新，非常方便探索。

步骤3：导入你的数据

JASP支持多种格式：.csv, .xlsx, .sav (SPSS), .rds (R) 等。

推荐方法：先在Excel里把数据整理好，保存为 .csv（逗号分隔） 格式。
- 数据整理黄金法则：
  1. 一行一个样本（一个学员、一次测量）。
  2. 一列一个变量。
  3. 第一行是变量名（用英文或拼音，避免特殊字符）。
  4. 缺失值留空即可。

示例数据表 (teaching_data.csv)：

id, group, pretest, posttest, teacher_id, satisfaction
1, VR, 65, 82, T01, 85
2, VR, 70, 88, T01, 90
3, Model, 68, 75, T02, 70
4, Model, 72, 78, T02, 75
...（更多行）

在JASP中，点击 File → Open → Computer，找到你的 .csv 文件，打开即可。数据会自动加载到数据视图。

第三部分：常用分析方法实战（附截图步骤）

重要提示：以下所有操作，你都可以在JASP自带的 “Data Library” 中找到示例数据来练手。点击 File → Open → Data Library，选择感兴趣的数据集即可。

实战1：描述性统计与绘图——先“摸摸数据的底”

目标：了解数据的基本情况（均值、标准差、分布）。
操作：
1. 在左侧分析菜单，点击 “Descriptives”。
2. 将你想了解的变量（如 pretest, posttest）从变量列表拖到 “Variables” 框里。
3. 在右侧 “Statistics” 选项卡下，勾选你需要的统计量：Mean, Std. deviation, Minimum, Maximum 等。
4. 在 “Plots” 选项卡下，可以勾选 Histogram（直方图）、Boxplot（箱线图）等。
结果解读：JASP会输出一个清晰的表格和图形。你可以快速查看数据有无异常值、是否符合正态分布（看直方图形状）。

实战2：配对样本t检验（前后测设计）

目标：判断“翻转课堂”教学后，学员成绩是否有统计学上的显著提高。
操作：
1. 点击 “T-Tests” → “Paired Samples T-Test”。
2. 将前测变量 pretest 拖入 “Variable 1”，后测变量 posttest 拖入 “Variable 2”。
3. 同时查看频率学派和贝叶斯结果：在 “Alt. Hypothesis” 下选择 Measure 1 > Measure 2（因为我们假设后测分数更高）。然后，在顶部选项卡中，分别点击 “Frequentist” 和 “Bayesian”，看看两种范式的结果。
结果解读（频率学派）：
- 看 “Paired Samples T-Test” 表格。
- p 值：如果 p < .05，说明前后测差异显著。
- Cohen's d：效应量。d ≈ 0.2（小），0.5（中），0.8（大）。它告诉你差异的“实际意义”有多大。
结果解读（贝叶斯学派）：
- 看 “Bayesian Paired Samples T-Test” 表格。
- BF10 (贝叶斯因子)：这是核心指标。
  - BF10 > 1：支持备择假设（H1，即存在差异）的证据。
  - BF10 > 3：有实质性证据。
  - BF10 > 10：有强证据。
  - BF10 < 1：支持零假设（H0，即无差异）的证据。
- 优势：贝叶斯因子直接告诉你“数据支持哪个假设的强度”，而不是武断地“拒绝”或“不拒绝”。

实战3：独立样本t检验（RCT设计）

目标：比较VR组和模型组的后测成绩。
操作：
1. 点击 “T-Tests” → “Independent Samples T-Test”。
2. 将结果变量 posttest 拖入 “Dependent Variables”。
3. 将分组变量 group 拖入 “Grouping Variable”。
4. 在 “Tests” 下，通常勾选 Student's（数据正态）和 Mann-Whitney（数据非正态）。JASP会自动给出两种结果。
结果解读：重点关注两组均值的差异及其置信区间。如果置信区间不包含0，且p值显著，则说明两组有差异。

实战4：相关性分析（横断面调查）

目标：分析职业倦怠与老师支持度的关系。
操作：
1. 点击 “Regression” → “Correlation Matrix”。
2. 将变量 burnout 和 support 拖入 “Variables”。
3. 勾选 “Pearson’s r”（两变量连续且正态）或 “Spearman’s rho”（等级数据或非正态）。
结果解读：
- 相关系数 r：范围-1到1。正值为正相关，负值为负相关。
- p 值：判断相关性是否显著。
- 散点图：直观展示两个变量的分布关系。

实战5：线性混合模型（嵌套数据设计）—— 解决“大坑”

目标：在控制“老师”的随机效应后，分析督导风格对学员评分的影响。
操作：
1. 点击 “Mixed Models” → “Linear Mixed Models”。
2. 指定模型结构：
  - 固定效应 (Fixed Effects)：将可能影响评分的因素（如学员性别、轮转时长）拖入。这是你主要想检验的效应。
  - 随机效应 (Random Effects)：将 teacher_id 拖入 “Random Intercepts”。这表示我们允许每位老师的基线评分不同。
3. 选择估计方法：保持默认的 “REML” 即可。
结果解读：
- 查看 “Fixed Effects” 表格：这里给出了每个固定效应的估计值、标准误、t值和p值。解读方式类似普通回归。
- 查看 “Random Effects” 表格：关注 “Variance” 部分。teacher_id 的方差如果较大，说明老师间的差异确实对学员评分有重要影响，验证了使用混合模型的必要性。
- 组内相关系数 (ICC)：JASP会自动计算。ICC = 老师间方差 / (老师间方差+残差方差)。它反映了评分变异中有多大比例是由老师层面的因素造成的。ICC > 0.05 通常就值得使用混合模型。

第四部分：模拟数据分析全流程演示

为了让你看得更清楚，我们用一个模拟的RCT数据，完整走一遍JASP分析流程。

研究背景

我们模拟一个研究：比较 “案例讨论组” (Case) 和 “传统讲座组” (Lecture) 对住培医师临床知识得分的影响。每组各15人。

步骤1：在JASP中创建模拟数据

点击 File → New，新建一个空白数据文件。
在数据视图，右键点击列名，选择 “Add Column”，创建三列：
- id (序号，1-30)
- group (分组，输入Case或Lecture)
- score (知识得分，我们手动输入一些模拟值，Case组稍高一些)

步骤2：执行独立样本t检验

（操作同实战3）

步骤3：解读与报告模拟结果

假设我们得到了以下频率学派结果：

p = 0.021 (< 0.05)
均值差 (Mean Difference) = 5.2分
95% 置信区间 (CI) = [0.8, 9.6]分
Cohen’s d = 0.85 (大效应)

同时，贝叶斯结果：

BF10 = 3.5

如何在论文中报告？

频率学派报告范例：

“案例讨论组学员的临床知识得分（M = 82.3， SD = 5.1）显著高于传统讲座组（M = 77.1， SD = 6.0），t(28) = 2.45, p = .021, 95% CI [0.8, 9.6], Cohen’s d = 0.85。”

贝叶斯学派报告范例：

“贝叶斯独立样本t检验为备择假设（案例讨论组得分更高）提供了实质性证据，BF10 = 3.5。后验分布表明，均值差有95%的可能性落在[0.9, 9.5]分的区间内。”

对比解读：

p值只告诉你“差异不太可能是偶然的”。
贝叶斯因子进一步告诉你“数据支持有差异的假设的程度是支持无差异假设的3.5倍”。
效应量 (d=0.85) 和置信区间则告诉你差异的“实际大小”和估计的“精确程度”。这是审稿人越来越看重的部分！

第五部分：避坑指南——这些雷区千万别踩

坑一：数据不整理，直接导入

症状：变量名是中文，格式混乱，缺失值用“-999”表示。
后果：JASP可能无法正确识别变量类型（连续or分类），导致分析错误。
解药：严格遵守前文提到的数据整理黄金法则。用Excel做好清洗再导入。

坑二：无视正态性假设

症状：数据严重偏态或有极端异常值，却强行使用t检验、ANOVA。
后果：结果可能不可靠。
解药：分析前先用 “Descriptives” 模块的图表（直方图、Q-Q图）检查正态性。如果不符合，改用非参数检验（如Mann-Whitney U检验）或使用稳健贝叶斯方法（JASP的贝叶斯t检验对正态性要求较低）。

坑三：误读贝叶斯因子

症状：看到 BF10 = 2.1，就激动地宣布“有显著差异！”
后果：夸大结论。
解药：记住通用的证据等级标准（见实战2）。BF10在1-3之间只是微弱证据，需要谨慎解读或收集更多数据。

坑四：忽略嵌套结构

症状：把嵌套数据当成独立数据，用普通t检验或回归。
后果：伪重复，人为夸大样本量，增加犯Ⅰ类错误（假阳性）的风险。
解药：当你的数据存在“群组”（如学员来自不同科室、由不同老师带教）时，先问自己：这些群组内的个体是否可能更相似？如果是，果断使用混合模型。

坑五：只关注p值，忽视效应量和置信区间

症状：论文里只写“p < 0.05”，不报告效应量和置信区间。
后果：无法判断差异的“实际重要性”，不符合现代统计报告规范（APA第7版明确要求）。
解药：每次报告p值，必须同时报告效应量（如Cohen’s d, η²）和置信区间。JASP已经帮你自动计算好了，直接复制即可。

第六部分：总结与资源推荐

JASP的出现，极大地降低了医学教育研究者进行规范统计分析的技术门槛和经济成本。它的双模分析特性，尤其适合我们这种既需要向传统审稿人汇报p值，又想探索更丰富的贝叶斯证据的研究场景。

核心行动路线图

明确设计：想清楚你的研究属于哪种数据设计。
整理数据：在Excel中按规范整理好 .csv 文件。
选择分析：在JASP左侧菜单中找到对应的方法。
拖动变量：把变量拖到正确的位置。
解读输出：同时关注统计显著性（p值）、实际重要性（效应量） 和证据强度（贝叶斯因子）。
规范报告：按APA格式将结果复制到你的论文中。

免费学习资源（全部来自官方）

入门必读：《Statistical Analysis in JASP: A Guide for Students (2025)》。在JASP官网 “Materials” 页面免费下载最新PDF。这是最全面的操作手册。
系统教程：《Learning Statistics with JASP》（2025年第二版）。一本免费的、幽默的统计教科书，用JASP完成所有示例。
视频教程：YouTube搜索 “JASP” 或 “Richard Balkin JASP”，有大量从入门到进阶的操作视频。
官方社区：遇到问题可以去 JASP Forum 提问，开发者和热心用户都会解答。

最后的鼓励

统计学不是魔法，它只是帮助我们更客观、更严谨地倾听数据声音的工具。JASP把这个工具打磨得足够顺手。别再让统计软件成为你教学研究路上的绊脚石。现在就打开JASP，导入你的数据，迈出第一步吧！

当你看到清晰的结果图表自动生成，当你发现贝叶斯因子并没有想象中那么神秘，当你第一次把符合APA格式的结果表轻松贴进论文时，你会感受到那种**“我居然也能搞定”** 的成就感。

祝你分析顺利，多发好文章！

本文是“教育研究实战系列”的第三篇。前两篇分别探讨了OSCE对比研究和线性混合模型在督导管理中的应用。