Advertisement

ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》(2018)

阅读量:

论文总结

论文总结

论文总结

论文总结

在GPT1实现的核心架构中,包含两个阶段。
第一阶段

在针对一个包含7000本书籍、内容丰富的规模宏大的未标注书籍数据库进行无监督预训练工作的第一阶段中, 该研究团队开发并应用了一种改进型的Transformer架构作为基础模型. 研究人员通过增加中间层以及优化模型结构和参数, 进一步提升了研究对象(即GPT1)的表现.

第二阶段

在第二个阶段中,在实验组中采用了12个更为详细的具体标注文本数据集(包括中学学校问答文本、政府工作报告文档以及包含情感暗示标记的数据集)来执行参数微调操作。The output from the first stage model training is then utilized as the foundation for further training a second-stage linear learning model.通过利用第一阶段获得的模型输出结果,在这一基础上又针对标注数据进行了二次训练以优化The second-stage linear learning model is further trained based on the annotated datasets.经过这两个连续的学习过程后所得出的一组合并后的版本即可生成最终版本的GPT-1架构"One combined model from both stages is then developed to produce the final GPT-1 version."

第二阶段的辅助目标学习

在训练过程中构建GPT-1架构时,在第二阶段参数微调这一关键步骤的核心是引入特定辅助目标学习。具体实施上包括对输入文本进行特定转化操作:例如,在分类任务中将数学表达式中的变量名前后加上特殊符号以标识其语义含义,并调整同一主题下不同表达方式的顺序排列。通过这一策略处理后,在多个实际场景中的表现更加稳定和可靠。

在这里插入图片描述

图1.一张图看懂GPT1模型架构

全部评论 (0)

还没有任何评论哟~