Advertisement

大语言模型在专业领域的应用——教育场景下的大语言模型

阅读量:

教育场景下的大语言模型

  • 构建教育相关的大语言模型
  • 数据资源
  • 总结

教育是人类社会进步的基石,对个人和社会发展都至关重要。在教育系统中,大语言模型已经被用于多种教育相关任务,有助于增强教育场景的智能化、自动化和个性化。

构建教育相关的大语言模型

通常来说,教育应用系统面临着多样的用户需求(如作文批改、启发式教学、试题讲解等),而且要支持与用户进行便捷的交互。为此,教育大语言模型需要基于海量的教育相关文本和专业数据对大模型进行训练,并结合大规模的对话数据进行指令微调,从而适配教育应用场景下的多种需求。考虑到教育领域不同学科往往具有显著的知识差异,还可以针对各学科设计专用的教育大模型。例如,可以构建专门面向数学学科的垂域大模型,强化数学学科特有的定理公式等专业知识,并能提供具有启发性的结题过程,以适应数学辅导的实际应用需求。在此基础上,也可以将各学科的垂类模型集成为一个综合教育系统,从而为多学科提供全方位的教学支持和服务。此外,也可以通过集成网络检索增强和本地知识库等功能,在实际应用时提升在特定场景下教育大模型的效果。然而,由于教学数据可能包含用户隐私,使用其训练后的大语言模型可能存在隐私泄露的风险。因此,目前的开源教育大模型较少,已有的模型普遍通过向用户提供 API 的方式对外服务。

数据资源

教育领域大模型相关的数据资源主要包括两类,即适配教育场景的训练数据和衡量大模型教育能力的评测数据。

其中,教育大模型所用的预训练数据通常来源于学科教材、领域论文与教学题库,这些数据能够在预训练阶段为大语言模型注入学科领域的专业知识。进一步,也可以邀请人类专家或使用大语言模型将其改写为指令数据,用于对大语言模型进行指令微调。例如,邀请专家标注题目解析指令数据,或使用 ChatGPT 仿真教学场景下的师生对话。此外,也可以从真实教育场景或在线教学平台中,利用录音、录像等形式采集真实学生数据,用于构造指令数据,例如教师和学生之间的真实对话。师生聊天室语料库(Teacher-Student Chatroom Corpus, TSCC)收录了 102 个不同教室内匿名师生的真实对话,总计十万多个对话轮次。在每轮对话中,教师和学生进行语言练习并评估学生的英语能力,同时提供个性化的练习和纠正,故该数据集可以用于教育场景下的指令微调。

对教育领域大模型的评估主要关注于以下两个方面:在辅助学习过程中的教学能力和对教育领域知识的理解能力。对前者的评测需要收集现实世界中教师与学生的对话,然后利用大语言模型模拟人类教师对学生进行教学指导,从表达方式、理解能力、辅助教学等方面分别进行评估。进一步,对后者的评测可以直接针对知识层次和学科特点,选择合适的已有教学题库进行测评。

总结

大语言模型在教育领域中展现了较好的应用潜力,不仅可以在教学过程中进行指导,还可以辅助进行课程规划与作业评测。然而,教育场景下大模型的应用仍然存在一系列技术问题。首先,大语言模型可能出现幻觉或者错误推理问题,导致它在教学场景下不能完全正确地执行解题、课程规划等任务。其次,语言模型可能生成有偏见、有道德风险等不符合人类教育价值取向的内容,可能会不利于思想品德和政治等学科的辅助教学。此外,学生对于大语言模型的过度依赖还可能引发工具滥用问题,从而可能导致作业抄袭、考试舞弊等情况的出现,需要教育人员引起重视并制定相关的政策规范。针对上述问题,相关技术人员需要设计相应的改进方案,从而更好将大模型技术服务于教育领域。

全部评论 (0)

还没有任何评论哟~