英国加强“人机协同”教育评估模式为教师减负

发布者:万军恺发布时间:2025-04-09浏览次数:10

英国教育评估机构“No More Marking”近日公布最新研究成果,其研发的AI教育评估系统在七年级学生写作评判中展现出与人类教师81%的一致性,预计可减少教师83%的评估时长,这标志着人工智能技术在教育质量评估领域取得实质性进展。该项研究覆盖44所中学的5251名学生,为英国政府利用AI技术减轻教师工作负担的政策目标提供了关键数据支撑。

研究采用学界广泛认可的对比评判法Comparative Judgment),要求学生就环境改善议题撰写说明文。评估过程中,教师将学生作文上传至专用平台,系统随机生成两篇作文的对比组供评估者判断优劣。数据显示,人类评估员内部一致性达87%AI系统在独立完成3640次评判后,与人类判断一致性达81%,标准差控制在±2.1%

项目团队通过三重机制确保评估质量。一是双重判定机制。每项AI决策均经过两次独立运算,有效消除位置偏见。二是动态校准系统。团队实时比对10%的人工复核结果,累计优化127项评判参数。三是跨期数据验证。团队对比2297名参与去年9月评估的学生,AI系统跨季评分相关性系数达0.65,显著优于人类评估员0.58的表现。

这项评估技术的引入显著提升了教学实践效率。伦敦某试点中学的应用数据显示,年级主任通过AI预处理系统,在1小时12分钟内完成了269份作文质量验证,而传统的人工评估需耗费16小时。其次,采用“10%人工复核+90%AI初评混合模式后,教师单次评估时长压缩至5-10分钟。此外,系统能自动生成包含12项质量维度的基础报告,同时保留人工补充个性化评语功能,实现量化分析和质评价性的有机结合。
  
项目联合创始人克里斯·威尔顿(Chris Wheadon)与黛西·克里斯托杜洛(Daisy Christodoulou)强调:当前AI虽能模拟人类评估维度,但仍需教师深度参与。我们的目标不是用机器取代教师,而是将教师从重复劳动中解放出来。根据发展规划,项目将持续优化AI模型的判断稳定性,并计划于2025-26学年推出整合多校历史数据的增强版评估系统。

 

更多信息请查阅:

https://schoolsweek.co.uk/using-ai-to-judge-writing-could-revolutionise-assessment-trial/


编译自:《学校周报》,2025-03-31

编译者:上海师范大学国际与比较教育研究院 冯远