ChatGPT for Good? On Opportunities and Challenges of Large Language Models for Education
文章目录
-
- 题目
- 摘要
- 引言
- 语言模型在教育领域的研究现状及应用
- 创新教育技术的机遇
- 大型语言模型在教育领域应用的关键挑战和风险
- 与用户界面和公平访问相关的其他问题
题目
ChatGPT 永垂不朽?大型语言模型为教育带来的机遇与挑战

论文地址:https://www.sciencedirect.com/science/article/abs/pii/S1041608023000195
摘要
大型语言模型代表了人工智能领域的重大进步。底层技术是进一步创新的关键,尽管社区和地区内存在批评意见甚至禁令,但大型语言模型仍将继续存在。本立场文件从学生和教师的角度介绍了大型语言模型在教育应用中的潜在优势和挑战。我们简要讨论了大型语言模型及其应用的现状。然后,我们重点介绍了如何使用这些模型来创建教育内容、提高学生的参与度和互动性以及个性化学习体验。关于挑战,我们认为教育中的大型语言模型要求教师和学习者发展一系列能力和素养,这些能力和素养对于理解技术以及此类系统的局限性和意外脆弱性是必不可少的。此外,需要在教育系统中制定明确的战略和明确的教学方法,重点关注批判性思维和事实核查策略,以便在学习环境和教学课程中整合和充分利用大型语言模型。其他挑战,例如输出中的潜在偏见、持续的人为监督需求以及滥用的可能性,并非 AI 在教育中的应用所独有。但我们相信,如果处理得当,这些挑战可以在教育场景中提供见解和机会,让学生尽早了解 AI 应用的潜在社会偏见、关键性和风险。我们最后提出了如何应对这些挑战的建议,并确保在教育中以负责任和合乎道德的方式使用此类模型。
引言
大型语言模型,例如 GPT-3,近年来在自然语言处理 (NLP) 方面取得了重大进展。这些模型在大量文本数据上进行训练,能够生成类似人类的文本、回答问题并以高精度完成其他与语言相关的任务。该领域的一个关键发展是使用 Transformer 架构和底层注意力机制,它们极大地提高了自回归、自监督。语言模型处理自然语言文本中长距离依赖关系的能力。Transformer 架构使用自注意力机制在生成预测时确定输入不同部分的相关性。这使模型能够更好地理解句子中单词之间的关系,而不管它们的位置如何。另一个重要的发展是使用预训练,即首先在大型数据集上训练模型,然后在特定任务上进行微调。事实证明,这是一种有效的技术,可提高各种语言任务的性能。例如,BERT 是一个预先训练的基于 Transformer 的编码器模型,可以在各种 NLP 任务上进行微调,例如句子分类、问答和命名实体识别。事实上,大型语言模型所谓的少样本学习能力有效地适应下游任务甚至其他看似不相关的任务(例如,在迁移学习中)的方法已经在各种自然语言任务中得到了经验观察和研究,例如最近在生成合成但现实的异构表格数据的背景下。
最近的进展还包括 GPT-3 和 ChatGPT,它们是在更大的数据集上训练的,即来自非常大的网络语料库的文本,并且在从翻译到问答、撰写连贯的文章和计算机程序等广泛的自然语言任务上展示了最先进的性能。此外,还进行了广泛的研究,以在较小的数据集上微调这些模型,并将迁移学习应用于新问题。这允许使用较少的数据量在特定任务上提高性能。 虽然大型语言模型近年来取得了长足的进步,但仍有许多限制需要解决。一个主要的限制是缺乏可解释性,因为很难理解模型预测背后的原因。存在道德方面的考虑,例如对偏见和这些模型的影响的担忧,例如对就业的影响、滥用风险和不充分或不道德的部署、诚信的丧失等等。总体而言,大型语言模型将继续突破自然语言处理的极限。然而,在解决其局限性和相关的道德考虑方面仍有许多工作要做。
学习机会大型语言模型在教育领域的应用已被确定为一个潜在的兴趣领域,因为它们提供了广泛的应用范围。通过利用这些模型,各个教育阶段的个人都可能有机会增强学习和教学体验,包括小学、中学、高等教育和职业发展。对于小学生来说,大型语言模型可以帮助培养阅读和写作技能(例如,通过建议句法和语法更正),以及培养写作风格和批判性思维技能。这些模型可用于生成问题和提示,鼓励学生批判性地思考他们正在阅读和写作的内容,并分析和解释呈现给他们的信息。此外,大型语言模型还可以通过为学生提供复杂文本的摘要和解释来帮助培养阅读理解技能,这可以使阅读和理解材料变得更容易。对于初中和高中学生,大型语言模型可以帮助学习语言和各种学科和主题的写作风格,例如数学、物理、语言和文学以及其他学科。这些模型可用于生成练习问题和测验,帮助学生更好地理解、情境化和保留他们正在学习的材料。此外,大型语言模型还可以通过为学生提供解释、分步解决方案和与问题相关的有趣问题来帮助培养解决问题的能力,这可以帮助他们理解解决方案背后的原因,并培养分析性和跳出框框的思维。
对于大学生来说,大型语言模型可以帮助完成研究和写作任务,以及培养批判性思维和解决问题的能力。这些模型可用于生成文本摘要和大纲,帮助学生快速理解文本的要点并组织写作思路。此外,大型语言模型还可以通过为学生提供有关特定主题的信息和资源并暗示未探索的方面和当前研究主题来帮助培养研究技能,这可以帮助他们更好地理解和分析材料。对于小组和远程学习,大型语言模型可用于促进小组讨论和辩论,通过在讨论期间为学生提供讨论结构、实时反馈和个性化指导。这有助于提高学生的参与度和参与度。在协作写作活动中,多名学生共同撰写文档或项目,语言模型可以通过提供风格和编辑建议以及其他综合性共同写作功能来提供帮助。出于研究目的,此类模型可用于涵盖与已研究主题相关的一系列开放研究问题,并自动将问题和主题分配给相关团队成员。出于远程辅导目的,它们可用于自动生成问题并提供根据学生知识水平量身定制的练习问题、解释和评估,以便他们按照自己的节奏学习。
为了增强残障学习者的能力,大型语言模型可与语音转文本或文本转语音解决方案结合使用,以帮助视障人士。结合前面提到的小组和远程辅导机会,语言模型可用于制定包容性学习策略,并在自适应写作、翻译和以各种格式突出显示重要内容等任务中提供充分的支持。然而,需要注意的是,大型语言模型的使用应辅以语言治疗师、教育工作者和其他专家的帮助,他们可以根据学习者残疾的具体需求调整技术。对于专业培训,大型语言模型可以帮助培养特定工作领域的语言技能。它们还可以帮助培养编程、报告撰写、项目管理、决策和解决问题等技能。例如,大型语言模型可以在特定领域的语料库(例如法律、医学、IT)上进行微调,以生成特定领域的语言并帮助学习者撰写技术报告、法律文件、医疗记录等。
它们还可以生成问题和提示,鼓励学习者批判性地思考他们的工作,并分析和解释呈现给他们的信息。 总之,大型语言模型有可能为各个教育阶段的学生和专业人士提供广泛的好处和机会。它们可以帮助培养阅读、写作、数学、科学和语言技能,并为学生提供个性化的练习材料、总结和解释,这有助于提高学生的表现,并有助于增强学习体验。此外,大型语言模型还可以协助研究、写作和解决问题的任务,并为专业培训提供特定领域的语言技能和其他技能。然而,如前所述,使用这些模型时应谨慎,因为它们也有局限性,例如缺乏可解释性和潜在的偏见,在相对简单的任务中出现意外的脆弱性,需要加以解决。
大型语言模型,如 ChatGPT,有可能彻底改变教学并协助教学过程。 下面我们仅提供一些这些模型如何使教师受益的例子:对于个性化学习,教师可以使用大型语言模型为学生创建个性化的学习体验。这些模型可以分析学生的写作和回答,并提供量身定制的反馈并推荐符合学生特定学习需求的材料。这种支持可以节省教师创建个性化材料和反馈的时间和精力,也可以让他们专注于教学的其他方面,例如创建引人入胜且互动的课程。
对于课程规划,大型语言模型还可以帮助教师创建(包容性)课程计划和活动。教师可以将他们想要构建课程的文档语料库输入到模型中。输出可以是课程大纲,其中包含每个主题的简短描述。语言模型还可以生成问题和提示,鼓励不同知识和能力水平的人参与,并引发批判性思维和解决问题。此外,它们还可用于生成有针对性的个性化练习问题和测验,这有助于确保学生掌握材料。对于语言学习,语言课程的教师可以以辅助方式使用大型语言模型,例如,突出显示重要短语、生成摘要和翻译、提供语法和词汇的解释、建议语法或风格改进以及协助对话练习。语言模型还可以为教师提供自适应和个性化的手段来帮助学生进行语言学习,这可以使语言学习对学生来说更具吸引力和有效性。对于研究和写作,大型语言模型可以帮助大学和高中课程的教师交流更高效、更有效地完成研究和写作任务(例如,研讨会作业、论文写作和对学生的反馈)。最基本的帮助可以在句法层面上实现,即识别和纠正拼写错误。在语义层面,大型语言模型可用于突出显示(潜在的)语法不一致,并提出充分和个性化的改进策略。更进一步说,这些模型可用于识别特定主题风格改进的可能性。它们还可用于生成具有挑战性的文本的摘要和大纲,这可以帮助教师和研究人员以有助于进一步深入研究和理解相关内容的方式突出文本的要点。
对于专业发展,大型语言模型还可以通过为教师提供资源、摘要和新教学方法、技术和材料的解释来协助教师。这可以帮助教师及时了解教育领域的最新发展和技术,并有助于提高教学效率。它们可用于提高教学材料的清晰度,查找专业人员在工作中学习时可能需要的信息或资源,以及用于需要演示和沟通技巧的在职培训模块。对于评估和评价,教师可以使用大型语言模型通过突出相关作业(例如论文、研究论文和其他写作作业)的潜在优势和劣势来半自动化地对学生作业进行评分。这可以为教师节省大量时间,用于与个性化反馈学生相关的任务。
此外,大型语言模型还可用于检查抄袭,这有助于防止作弊。因此,大型语言模型可以帮助教师识别学生遇到困难的领域,从而更准确地评估学生的学习发展和挑战。模型提供的有针对性的指导可用于帮助学生出类拔萃并提供进一步发展的机会。学生了解人工智能带来的挑战,这些挑战与输出中的潜在偏见、持续的人为监督需求以及大型语言模型被滥用的可能性有关,而这些挑战并非教育领域所独有。事实上,这些挑战是变革性数字技术所固有的。因此,我们相信,如果教师能够明智地处理这些挑战,它们可以在学习和教育场景中提供深刻见解,让学生尽早了解潜在的社会偏见和人工智能应用的风险。总之,大型语言模型有可能从教师的角度彻底改变教学,为教师提供广泛的工具和资源,帮助教师进行课程规划、个性化内容创作、差异化和个性化教学、评估和专业发展。总的来说,大型语言模型有可能成为教育领域的一个强大工具,目前有许多研究正在探索其在这一领域的潜在应用。
语言模型在教育领域的研究现状及应用
OpenAI 开发的 GPT(Generative Pre-trained Transformer)模型是 2018 年第一个公开发布的大型语言模型。GPT 能够生成类似人类的文本,回答问题,并通过类似人类的补全功能协助完成翻译和摘要等任务。在此初始模型的基础上,OpenAI 后来发布了具有更高级功能的 GPT-2 和 GPT-3 模型。可以说,GPT 的发布标志着 NLP 领域的一个重要里程碑,并为研究和工业应用开辟了许多传播途径。谷歌研究院在 2018 年发布的另一个模型是 BERT(来自 Transformers 的双向编码器表示),它也基于 Transformer 架构,并在大量文本数据集上进行了预训练,用于两项无监督任务,即掩蔽语言建模(预测句子中缺失的部分并学习其上下文)和下一句预测(学习给定句子的合理后续句子),目的是学习不同主题中单词的更广泛上下文。
一年后的 2019 年,谷歌 AI 发布了 XLNet,它使用一种称为排列语言建模的过程进行训练,使 XLNet 能够应对涉及理解句子中单词之间依赖关系的任务,例如自然语言推理和问答。 Google Research 开发的另一个模型是 T5(文本到文本传输转换器),于 2020 年发布。
与前代模型一样,T5 也是基于转换器的模型,在海量文本数据集上进行训练,其主要特点是能够通过单个预训练和微调管道执行许多 NLP 任务。与 Open AI 和 Google 并行,Facebook AI 开发了一种名为 RoBERTa(稳健优化的 BERT 预训练)的大型语言模型,该模型于 2019 年发布。RoBERTa 是 BERT 模型的一个变体,它在预训练期间使用动态掩码而不是静态掩码。此外,RoBERTa 在更大的数据集上进行训练,因此在发布时明显优于 BERT 和其他模型(如 GPT-2 和 XLNet)。
目前,使用最广泛、规模最大的语言模型是 GPT-3,它也是在海量文本数据集(包括书籍、文章和网站等来源)上进行预训练的,拥有 1750 亿个参数。与之前描述的所有其他语言模型一样,GPT-3 使用转换器架构,这使其能够高效处理顺序数据并生成更连贯、更符合上下文的文本。事实上,GPT-3 生成的文本与人类书写的文本几乎没有区别。凭借执行零样本学习的能力,GPT-3 可以处理未经专门训练的任务,因此为从自动化(总结、根据要点完成文本)到对话等应用提供了巨大的机会系统、聊天机器人和创意写作。就在最近,BigScience 社区开发并发布了大型语言模型 BLOOM(BigScience 大型开放科学开放获取多语言语言模型),这是 HuggingFace、GENCI 和 IDRIS3 的开源联合项目。该项目旨在为学术界和非营利组织提供透明训练的多语言语言模型。BLOOM 基于与 GPT 系列模型相同的 Transformer 架构,仅在结构上略有变化,但训练数据明确选择涵盖 46 种自然语言和 13 种编程语言,数据量达到 1.6TB。
下面,我们概述了自 2018 年发布第一个大型语言模型以来发表的在教育领域使用大型语言模型的研究成果。下面根据这些研究的目标群体(即学习者或教师)对这些研究进行了讨论。学习者的观点。从学生的角度来看,大型语言模型可以以多种方式用于协助学习过程。一个例子就是创建和设计教育内容。例如,研究人员已经使用大型语言模型来生成交互式教育材料,如测验和抽认卡,这些材料可用于提高学生的学习和参与度。更具体地说,在 Dijkstra 等人最近的一项研究中,研究人员使用 GPT-3 为阅读理解任务生成多项选择题和答案,并认为自动生成测验不仅减轻了教师手动设计测验的负担,而且最重要的是,为学生提供了一个有用的工具,让他们可以在学习课本和准备考试的同时训练和测试他们的知识。
在另一项近期研究中,GPT-3 被用作教学代理,以激发儿童的好奇心并提高提问技巧。更具体地说,作者自动生成引发好奇心的线索,以激励人们提出更多更深层次的问题。根据他们的研究结果,大型语言模型不仅具有显著促进好奇心激发学习实施的潜力,而且还可以作为增加好奇心表达的有效工具。在计算机教育领域,MacNeil 等人最近的一项研究使用 GPT-3 来生成代码解释。尽管有几个开放的研究和教学问题需要进一步探索,但这项工作成功地展示了 GPT-3 通过解释给定代码片段的各个方面来支持学习的潜力。对于数据科学课程,Bhat 等人提出了一种基于基于文本的学习材料上微调的 GPT3 模型生成评估问题的流程。所生成的问题将根据自动标签对学习成果的实用性进行进一步评估。由训练有素的 GPT-3 模型和人类专家的人工评审完成。作者报告称,生成的问题得到了人类专家的好评,从而促进了大型语言模型在数据科学教育中的使用。 学生可以通过同行评审和评估彼此的解决方案来互相学习。当然,当给出的反馈全面且高质量时,这种方法效果最好。例如,Jia 等人展示了如何使用 BERT 来评估同行评估,以便学生可以学会改进他们的反馈。
在最近一篇关于语言教育中对话式人工智能的评论中,作者发现对话式人工智能在教学中有五种主要应用,最常见的一种是使用大型语言模型作为书面或口头形式的对话伙伴,例如在以任务为导向的对话中,提供发音等语言练习机会。另一个应用是在学生感到外语学习焦虑或交流意愿较低时为他们提供支持。作者探讨了在小学生练习词汇时提供反馈、作为需求分析师和评估员的应用。由思维导图引导的聊天机器人在语言学习过程中通过提供支架来支持学生比传统的人工智能聊天机器人更成功。Kung 等人最近在医学教育领域开展的一项研究探讨了 ChatGPT 在美国医师执照考试中的表现。根据评估结果,ChatGPT 在此测试中的表现达到或接近及格阈值,无需进行任何领域微调。
基于这些结果,作者认为大型语言模型可能成为辅助医学教育和最终临床决策过程的有力工具。教师的观点。由于与其他领域(例如工业应用(例如金融、电子商务、汽车)或医学)相比,人工智能在教育中的采用速度仍然缓慢,因此考虑在教育中使用大型语言模型的研究较少。最近对教育领域聊天机器人的机遇和挑战的回顾指出,与教育领域聊天机器人相关的研究仍处于早期阶段,很少有实证研究调查有效学习设计或学习策略的使用情况。因此,我们首先讨论教师对教育领域人工智能和学习分析的看法,并将这些看法转移到大型语言模型这个更新得多的领域。从这个角度来看,一项针对欧洲教师的试点研究表明,他们对教育领域人工智能持积极态度,并有很高的积极性在学校引入人工智能相关内容。总体而言,研究中的教师似乎具备基本的数字技能,但人工智能相关技能较低。另一项针对尼日利亚教师的研究强调,教师推广人工智能的意愿和准备程度是将基于人工智能的技术融入教育的关键先决条件。同样,一项针对韩国教师的研究结果表明,具有建构主义信念的教师与具有传递倾向的教师相比,教师更有可能整合基于人工智能的教育工具。此外,感知有用性、感知易用性和感知信任这些基于人工智能的工具是预测教师接受度时需要考虑的决定因素。报告了有关教师对教育聊天机器人态度的类似结果:认为人工智能聊天机器人易于使用和有用会导致聊天机器人的接受度更高。至于聊天机器人的功能,聊天机器人的正式语言会带来更高的使用它的意图。
由于教师对人工智能在教育中的普遍使用的看法似乎与上述对聊天机器人的态度有很多共同之处,因此通过让不同社区的专业知识参与进来,负责任地将人工智能融入教育至关重要。最近从教师的角度探讨大型语言模型使用的研究主要集中在学生答案的自动评估、自适应反馈和教学内容的生成。例如,Moore 等人最近的一项研究采用了经过微调的 GPT-3 模型来评估化学教育学习环境中学生生成的答案。 作者认为,大型语言模型可能(尤其是在针对特定领域进行微调时)成为协助教师评估学生答案质量和教学效果的有力工具。此外,以下研究考察了基于 NLP 的自动自适应反馈生成模型:Zhu 等人在高中气候活动任务的背景下研究了一种结合自动评分技术的基于 AI 的反馈系统。结果表明,反馈有助于学生修改他们的科学论点。Sailer 等人在诊断教师教育中学生的学习困难时使用了基于 NLP 的自适应反馈。在他们的实验研究中,他们发现,与接受静态反馈的未来教师相比,接受自适应反馈的职前教师更能证明他们的诊断。 Bernius 等人使用基于 NLP 的模型为大型课程中的文本学生答案生成反馈,其中评分工作量可减少高达 85%,同时具有高精度和学生感知到的改进质量。
大型语言模型不仅可以支持对学生解决方案的评估,还可以帮助自动生成练习。使用少样本学习,表明 OpenAI Codex 模型能够提供各种编程任务以及正确的解决方案、用于验证学生解决方案的自动测试和额外的代码解释。关于一般测试事实知识,提出了一个自动生成问答对的框架。这可用于创建教学材料,例如用于阅读理解任务。除了生成正确答案之外,Transformer 模型还能够根据生成多项选择问卷的需要创建干扰项答案。将语言模型引入数学教育,一些研究讨论了数学应用题的自动生成,这结合了理解方程式和将其放入适当语境的挑战。最后,另一项近期研究调查了最先进的对话代理在教育对话中充分回复学生的能力。本研究中使用的两种模型(Blender 和 GPT-3)都能够充分回复学生,并生成对话,给人留下了这些模型了解学习者的印象(尤其是 Blender)。然而,在帮助学生方面,它们的表现远远落后于人类,因此强调需要进一步研究。
创新教育技术的机遇
展望未来,大型语言模型有可能显著改善教育数字生态系统,例如基于增强现实 (AR)、虚拟现实 (VR) 和其他相关数字体验的环境。具体来说,它们可用于放大几个关键因素,这些因素对于用户与数字内容的沉浸式交互至关重要。例如,大型语言模型可以显著提高 AR/VR 系统的自然语言处理和理解能力,从而实现用户与系统(例如虚拟教师或虚拟同伴)之间有效的自然交流和交互。后者很早就被认为是沉浸式教育技术的一个关键可用性方面,并且通常被视为改善人与人工智能系统之间交互的关键因素。
大型语言模型还可用于开发更自然、更复杂的用户界面,利用其对用户提出的自然语言问题生成情境化、个性化和多样化的响应的能力。此外,它们能够回答各个领域的自然语言问题,有助于将各种数字应用程序集成到统一的框架或应用程序中,这对于扩大教育可能性和体验的范围也至关重要。一般来说,这些模型能够生成情境化的自然语言文本、各种实施任务的代码以及各种类型的多媒体内容(例如,与其他 AI 系统结合,如 DALLE),可以实现和扩展引人注目的沉浸式数字(例如 AR/VR)体验的创建。从游戏化到数字环境中沉浸式学习的详细模拟,大型语言模型都是一项关键的支持技术。然而,要充分发挥这一潜力,不仅要考虑技术方面,还要考虑道德、法律、生态和社会影响。在下一节中,我们将简要介绍与教育领域应用大型语言模型相关的风险,并提供相应的缓解策略。
大型语言模型在教育领域应用的关键挑战和风险
版权问题。当我们训练大型语言模型来生成与教育相关的内容(课程大纲、测验、科学论文)时,应该使用此类文本的示例来训练模型。在生成新提示的过程中,答案可能包含训练集中出现的完整句子甚至段落,从而导致版权和抄袭问题。负责任地缓解此类问题的重要步骤如下:
- 透明地(即数据使用的目的和政策)向原始文档的作者询问使用其内容进行模型训练的许可
- 遵守开源内容的版权条款• 模型生成内容的继承和详细使用条款
- 告知用户并提高他们对这些政策的认识偏见和公平。
大型语言模型可以延续和放大社会中现有的偏见和不公平现象,从而对教学和学习过程及结果产生负面影响。例如,如果模型是在偏向某些人群的数据上训练的,那么它可能会对这些群体产生不公平或歧视性的结果(例如,关于少数族裔或文化等少数民族的当地知识可能会逐渐消失)。因此,重要的是要确保模型的训练数据或用于下游任务微调的数据是多样化的,并且代表不同的人群。定期监测和测试模型在不同人群中的表现有助于尽早发现和解决任何偏见。
因此,在这一过程中,人为监督对于减轻偏见和在教育领域有效应用大型语言模型是必不可少的,也是至关重要的。更具体地说,负责任的缓解策略将侧重于以下关键方面:
- 一组多样化的数据来训练或微调模型,以确保它不会偏向任何特定群体
- 定期监测和评估模型的性能(针对不同人群),以识别和解决可能出现的任何偏见
- 公平措施和偏差纠正技术,例如预处理或后处理方法
- 透明机制,使用户能够理解模型的输出以及用于生成它的数据和假设
- 为教育工作者提供专业培训和资源,帮助他们识别和解决模型输出中的潜在偏见和其他缺陷
- 使用多样化、无偏见的数据不断更新模型,并在人类专家的监督下审查结果
学习者可能过于依赖模型。毫不费力生成的信息可能会对他们的批判性思维和解决问题的能力产生负面影响。这是因为模型简化了答案或信息的获取,这可能会加剧懒惰并抵消学习者进行自己的调查并得出自己的结论或解决方案的兴趣。为了应对这种风险,重要的是要意识到大型语言模型的局限性,并仅将其用作支持和增强学习的工具,而不是替代人类权威和其他权威来源。
因此,负责任的缓解策略将侧重于以下关键方面:
- 提高对大型语言模型和人工智能系统的局限性和意外脆弱性的认识(即,用模型进行实验以建立自己对工作原理和局限性的理解)
- 使用语言模型生成假设并探索不同观点,而不仅仅是生成答案
- 使用其他教育资源(例如书籍、文章)和其他权威来源来评估和证实模型提供的信息的事实正确性的策略(即鼓励学习者质疑生成的内容)
- 将批判性思维和解决问题的活动纳入课程,帮助学生发展这些技能
- 结合人类专业知识和教师来审查、验证和解释模型提供的信息值得注意的是,大型语言模型的使用应该以一种补充和增强学习体验的方式融入到课程中,而不是取代它。
教师可能会过于依赖模型。使用大型语言模型可以提供准确且相关的信息,但它们无法取代通过人类教学培养的创造力、批判性思维和解决问题的能力。因此,教师应将这些模型作为教学的补充,而不是替代。因此,减轻过度依赖大型语言模型的风险的关键方面是:语言模型仅作为指令生成的补充
- 持续对教师进行培训和专业发展,使他们能够及时了解课堂上使用语言模型的最佳实践,以激发和促进创造力和批判性思维
- 借助数字技术进行批判性思维和解决问题的活动,作为课程不可或缺的一部分,以确保学生正在发展这些技能
- 让学生参与创造性和独立的项目,让他们能够发展自己的想法和解决方案
- 监测和评估课堂上语言模型的使用情况,确保它们得到有效使用,并且不会对学生的学习产生负面影响
- 激励教师和学校基于大型语言模型制定(包容性、协作性和个性化)教学策略,并让学生参与解决问题的过程,例如使用模型和其他来源检索和评估与课程/作业相关的信息 缺乏理解和专业知识。
许多教育工作者和教育机构可能不具备将新技术有效地融入教学的知识或专业知识。这尤其适用于将大型语言模型使用和整合到教学实践中。教育理论早已提出了将新工具整合到教育实践中的方法。与任何其他技术创新一样,将大型语言模型整合到有效的教学实践中需要了解它们的能力和局限性,以及如何有效地使用它们来补充或增强特定的学习过程。有几种方法可以应对这些挑战并承担这种风险:
- 通过调查现有的技术整合教育模式、学生的学习过程并将其转移到大型语言模型的环境中,以及开发专门针对大型语言模型环境的新教育理论,研究大型语言模型在教育中的挑战
- 评估教育者和学生的需求并提供基于案例的指导(例如,在教育场景中安全合乎道德地使用大型语言模型)
- 面向需求的培训和专业发展机会,让教育工作者和机构了解大型语言模型在教育中的能力和潜在用途,并提供将其整合到教学方法中的最佳实践
- 开放教育资源(例如教程、研究、用例等)和指南,供教育工作者和机构访问和了解语言模型在教育中的使用情况
- 激励已经在教学实践中使用语言模型的教育工作者和机构进行协作和社区建设(例如专业学习社区),以便他们可以与他人分享他们的知识和经验
- 定期分析和反馈语言模型的使用情况,以确保其有效使用并在必要时进行调整
难以区分模型生成的答案和学生生成的答案。区分文本是机器生成的还是人类生成的变得越来越困难,这给教师和教育工作者带来了额外的重大挑战。因此,纽约市教育局最近禁止在学校的设备和网络上使用 ChatGPT。就在最近,Cotton 等人提出了几种策略来检测由大型语言模型(特别是 ChatGPT)生成的工作。此外,诸如最近发布的 GPTZero 之类的工具有望提供额外的支持,它使用困惑度作为暗示泛化能力(编写文本的代理)的度量标准,以检测 AI 参与文本编写的情况。
更先进的技术旨在为语言模型生成的内容添加水印,例如,通过使内容生成偏向于不太可能被人类在文本段落中共同使用的术语。但从长远来看,我们认为制定鼓励创造性和基于证据使用大型语言模型的课程和教学将是解决这一问题的关键。 因此,合理的风险缓解策略应侧重于:
- 研究透明度、解释和分析技术,以及区分机器生成文本和人类生成文本的措施
- 激励和支持制定需要创造性和互补使用大型语言模型的课程和教学 培训和维护成本。
大型语言模型的维护可能会给学校和教育机构带来经济负担,尤其是那些预算有限的机构。为了应对这一挑战,可以使用预先训练的模型和云技术,并结合与机构和公司合作使用的合作方案,作为一个起点。具体而言,风险缓解策略应侧重于以下方面:
- 使用预先训练的开源模型,可针对特定任务进行微调
- 与私营公司、研究机构以及政府和非营利组织建立和探索合作伙伴关系,这些组织可以提供资金、资源和专业知识,以支持在教育中使用大型语言模型
- 分担成本和合作使用可扩展(例如云)计算服务,以低成本提供对强大计算资源的访问
- 主要用于高价值教育任务的模型,例如为学生提供个性化和有针对性的学习体验(即为低价值任务分配较低的优先级)
- 研究和开发压缩、提炼和修剪技术,以减小模型、数据和所需的计算资源的大小
数据隐私和安全。在教育领域使用大型语言模型引发了对数据隐私和安全的担忧,因为学生数据通常很敏感且私密。这可能包括对数据泄露、未经授权访问学生数据以及将学生数据用于教育以外的目的的担忧。在教育中使用大型语言模型时,减轻隐私和安全问题的一些具体重点领域包括:
- 制定和实施强大的数据隐私和安全政策,明确概述学生数据的收集、存储和使用,以符合法规(例如 GDPR、HIPAA、FERPA)和道德标准
- 对学生及其家人透明地了解数据收集、存储和使用实践,并在数据收集和使用前获得强制同意
- 现代技术和措施保护收集的数据免遭未经授权的访问、泄露或不道德的使用(例如,匿名数据和安全基础设施,采用现代加密、联合、隐私保护分析等手段)
- 定期审核现有的数据隐私和安全措施,以识别和解决任何潜在的漏洞或需要改进的领域
- 事件响应计划,以快速响应和减轻任何数据泄露或未经授权的数据访问
- 对员工(即教育工作者和学生)进行数据隐私和安全政策、法规、道德问题和处理和报告相关风险的最佳实践的教育和认识
可持续使用。大型语言模型具有很高的计算需求,这会导致高能耗。因此,节能硬件和基于可再生能源的共享(例如云)基础设施对于其在教育背景下所需的环境可持续运行和扩展至关重要。对于模型训练和更新,只应考虑以符合法规和道德的方式收集和注释的数据。因此,包括政策、程序和控制措施在内的治理框架是成功采用这些模型的关键,以确保适当使用此类模型。
同样,对于长期可信和负责任地使用模型,透明度、偏见缓解和持续监控是必不可少的。总之,缓解这一风险的策略包括:
- 基于可再生能源的节能硬件和共享基础设施,以及降低培训和维护成本的研究(即高效的算法、表示和存储)
- 以符合法规和道德的方式收集、注释、存储和处理数据
- 透明度和解释技术,以识别和减轻偏见并防止不公平现象
- 包括政策、程序和控制措施在内的治理框架,以确保上述几点以及在教育中的适当使用验证信息和保持完整性的成本。重要的是通过咨询外部权威来源来验证模型提供的信息,以确保准确性和完整性。
此外,维护和更新模型以确保其提供准确的最新信息可能会产生财务成本。针对此风险的负责任的缓解策略将考虑以下关键方面:
- 定期使用新的和准确的信息更新模型,以确保其提供最新且准确的信息
- 使用多个权威来源来验证模型提供的信息,以确保正确性和完整性
- 结合使用模型与人类专业知识(例如教师或学科专家)来审查和验证模型提供的信息
- 制定协议和标准来核实和证实模型提供的信息
- 提供有关模型性能、模型能做什么或不能做什么以及模型运行条件的清晰透明的信息。
- 为教育工作者和学习者提供如何使用模型、解释其结果和评估所提供信息的培训和资源
- 定期审查和评估模型,并透明地报告模型的性能,即模型能做什么或不能做什么,以及识别可能出现不准确或其他问题的条件
难以区分真实知识和令人信服但未经验证的模型输出。大型语言模型能够生成类似人类的文本,这可能会让学生难以区分真实知识和未经验证的信息。这可能导致学生接受虚假或误导性信息为真实信息,而不质疑其有效性。 为了降低这种风险,除了上述验证和完整性相关的缓解策略外,还必须对如何批判性地评估信息进行教育,并教会学生探索、调查、验证和确证策略。 缺乏适应性。大型语言模型无法适应学生和教师的不同需求,也可能无法提供有效学习所需的个性化水平。这是当前技术的局限性,但可以想象,随着模型的不断改进,适应性将会增加。 更具体地说,合理的缓解策略将包括:
- 使用自适应学习技术,通过使用学生数据(例如,关于学习风格、先前知识和表现等)将模型输出个性化,以满足个别学生的需求
- 定制语言模型的输出以符合教学风格和课程(通过使用教师提供的数据)
- 使用多模式学习和教学方法,结合文本、音频、视频和实验,为学生和教师提供更具吸引力和个性化的体验
- 使用混合方法,结合人类教师和语言模型的优势来生成有针对性的个性化学习材料(基于教师提供的反馈、指导和支持)
- 定期审查模型并不断改进与课程相关的用例,以确保其充分和准确地用于教育目的
- 研究和开发以创建更先进的模型,以更好地适应学生和教师的不同需求
与用户界面和公平访问相关的其他问题
合适的用户界面。为了将大型语言模型集成到教育工作流程中,需要进一步研究人机交互和用户界面设计。在这项工作中,我们讨论了不同年龄段学习者的几种潜在用例——从儿童到成人。在创建此类基于人工智能的助手时,我们应该考虑潜在用户的心理成熟度、精细运动技能和技术能力。因此,用户界面应该适合任务,但也可能具有不同程度的人类模仿——例如,对于儿童来说,最好将机械制品隐藏在生成的文本中,并尽可能多地使用游戏化的交互和学习方法,以便与此类技术进行顺畅且引人入胜的交互,而对于年龄较大的学习者,可以利用基于机器的内容来促进解决问题、批判性思维和事实核查能力。
总体而言,基于人工智能的辅助和学习工具的用户界面设计应促进 21 世纪学习和解决问题技能的发展,尤其是批判性思维、创造力、沟通和协作,为此需要进一步的基于证据的研究。在这种情况下,一个关键方面是适当地将基于年龄和背景的人工智能辅助功能整合在一起,以最大限度地发挥其优势并尽量减少任何潜在的缺点。多语言和公平访问。虽然大型语言模型中的大多数研究都是针对英语进行的,但该领域对其他语言的研究仍然存在空白。这可能会使英语用户的教育比其他用户更容易、更高效,从而导致非英语用户无法公平地获得此类教育技术。尽管各个研究团体都在努力解决人工智能技术的多语言公平性问题,但仍有很大的改进空间。
最后,政府组织可能需要对获取、培训和维护大型语言模型的财务手段相关的不公平现象进行监管,目的是为所有有兴趣使用这些现代技术的教育实体提供公平的手段。如果没有公平的获取,这种人工智能技术可能会严重扩大教育差距,这是之前任何技术都无法比拟的。因此,我们赞同联合国教科文组织的呼吁,确保人工智能不会扩大国家内部和国家之间的技术和教育鸿沟,并建议以负责任和公平的方式制定使用人工智能的重要战略,以缩小现有的差距。根据联合国教科文组织 2030 年教育议程:“联合国教科文组织的任务本身就要求以人为本的方式对待人工智能。它旨在将对话转向包括人工智能在解决当前获取知识、研究和文化表现形式多样性的不平等方面的作用,并确保人工智能不会扩大国家内部和国家之间的技术鸿沟。
“全民人工智能”的承诺必须是每个人都能利用正在进行的技术革命并获得其成果,特别是在创新和知识方面。” 大型语言模型在教育中的应用是一个有前途的研究领域,它提供了许多机会来增强学生的学习体验并支持教师的工作。然而,为了充分发挥它们在教育方面的潜力,必须谨慎对待这些模型的使用,并批判性地评估它们的局限性和潜在偏见。因此,将大型语言模型整合到教育中必须满足严格的隐私、安全要求,以及——为了可持续扩展——环境、监管和道德要求,并且必须与持续的人工监测、指导和批判性思维相结合。
虽然这篇立场文件反映了作者对大型语言模型作为教育变革技术的机会的乐观态度,但它也强调需要进一步研究,以探索将大型语言模型整合到教育中的最佳实践,并减轻已发现的风险。我们相信,尽管存在许多困难和挑战,但讨论的风险是可控的,应该予以解决,以便为教育提供值得信赖和公平的大型语言模型。为了实现这一目标,本立场文件中提出的缓解策略可以作为起点。
