英国加强“人机协同”教育评估模式为教师减负

发布者：万军恺发布时间：2025-04-09浏览次数：10

英国教育评估机构“No More Marking”近日公布最新研究成果，其研发的AI教育评估系统在七年级学生写作评判中展现出与人类教师81%的一致性，预计可减少教师83%的评估时长，这标志着人工智能技术在教育质量评估领域取得实质性进展。该项研究覆盖44所中学的5251名学生，为英国政府“利用AI技术减轻教师工作负担”的政策目标提供了关键数据支撑。

研究采用学界广泛认可的“对比评判法”（Comparative Judgment），要求学生就环境改善议题撰写说明文。评估过程中，教师将学生作文上传至专用平台，系统随机生成两篇作文的对比组供评估者判断优劣。数据显示，人类评估员内部一致性达87%；AI系统在独立完成3640次评判后，与人类判断一致性达81%，标准差控制在±2.1%。

项目团队通过三重机制确保评估质量。一是双重判定机制。每项AI决策均经过两次独立运算，有效消除“位置偏见”。二是动态校准系统。团队实时比对10%的人工复核结果，累计优化127项评判参数。三是跨期数据验证。团队对比2297名参与去年9月评估的学生，AI系统跨季评分相关性系数达0.65，显著优于人类评估员0.58的表现。

这项评估技术的引入显著提升了教学实践效率。伦敦某试点中学的应用数据显示，年级主任通过AI预处理系统，在1小时12分钟内完成了269份作文质量验证，而传统的人工评估需耗费16小时。其次，采用“10%人工复核+90%AI初评”混合模式后，教师单次评估时长压缩至5-10分钟。此外，系统能自动生成包含12项质量维度的基础报告，同时保留人工补充个性化评语功能，实现量化分析和质评价性的有机结合。
项目联合创始人克里斯·威尔顿（Chris Wheadon）与黛西·克里斯托杜洛（Daisy Christodoulou）强调：“当前AI虽能模拟人类评估维度，但仍需教师深度参与。我们的目标不是用机器取代教师，而是将教师从重复劳动中解放出来。”根据发展规划，项目将持续优化AI模型的判断稳定性，并计划于2025-26学年推出整合多校历史数据的增强版评估系统。

编译自：《学校周报》，2025-03-31

编译者：上海师范大学国际与比较教育研究院冯远