北京师范大学智能媒体计算实验室

团队新闻

所在位置: 首页» 团队新闻

“北极星”基础教育大模型评测场V1.0及榜单正式发布

人工智能是引领新一轮科技革命和产业变革的战略性技术。国家高度重视人工智能对教育的深刻影响，积极推动人工智能和教育深度融合，促进教育变革创新，实现教育大国迈向教育强国。依托北京师范大学深厚的教育底蕴，智能技术与教育应用教育部工程研究中心（以下简称“工程研究中心”）深入贯彻落实国家“人工智能+”行动的战略部署，扛起教育数字化转型大旗：研究智能教育关键技术，开发和推广智能教育工具和系统，协同社会各界探索具有首都特色的人工智能赋能基础教育的创新范式。

在北京市教委的具体指导和北京市科委的支持下，工程研究中心形成了多项创新成果。现发布人工智能赋能基础教育应用的代表性成果：“北极星”基础教育大模型评测场V1.0及榜单。

由北京师范大学智能技术与教育应用教育部工程研究中心、北京教育科学研究院、‌北京智源人工智能研究院联合建设的“北极星”评测场是首个极具基础教育特色的大模型评测场。在团体标准《人工智能基础教育大模型评测指标和方法》（标准编号：T/CESA 1395-2025）的指导下，“北极星”具有紧扣新课标、聚焦教育应用、多学科多场景的特点，其突破了传统解题评测局限，更加关注启发引导、素养导向、情境创设等能力评估，填补了教育大模型在真实教学场景中的评测空白。

当前，“北极星”评测场已覆盖初中“语文/数学/英语/物理/化学/生物/历史/地理/信息技术”9门学科、“备/教/练/考/评/管”6大教育场景，支持110多个维度的评测。评测结果显示，现有大模型大多数能力离实际应用尚有差距，例如解题性能会因题目改写受到较大影响，实验探究方面效果欠佳；智能出题方面，大模型题目和解析的准确性仍有待提升。经验证，“北极星”评测结果与具备丰富教学经验的资深教师高度一致。

目前，“北极星”V1.0版本正式上线（www.bnueval.com），已全面评测50多个主流大模型，评测榜单通过网站向公众公布。未来，“北极星”基础教育大模型评测场将继续迭代更新，以更全面的评测维度、更科学的评测方法推动基础教育大模型应用安全、可靠、健康发展。

联系我们

地址：北京市海淀区新街口外大街19号

邮编：100875

邮箱：huahuang@bnu.edu.cn

快速链接

北京师范大学

北京师范大学人工智能学院