ChatGPT是什么,一文读懂ChatGPT
ChatGPT是个啥?
最近有很多用户在后端私信询问如何访问GPT
最近有很多用户在后端私信询问如何访问GPT

近期时分, OpenAI发布了ChatGPT,它是一种具备对话交流能力的人工智能系统架构,因其智能化特性而广受好评.它是OpenAI之前发布的InstructGPT系列中的一员,其训练基于RLHF,或许这也预示着这一进展为随后推出的完整版本奠定了基础.
什么是GPT?从GPT-1到GPT-3
Generative Pre-trained Transformer (GPT) 是一种基于广泛收集的数据资源构建的文本生成任务专用深度学习模型。该模型可用于问答服务、新闻摘要自动化以及多语言翻译等场景,并支持代码开发与智能对话系统设计。
2018年是GPT-1发布的那一年,也是自然语言处理领域的预训练模型年度。从性能表现上来看,GPT-1具备一定的通用能力,能够在非监督学习场景下执行与监督学习无关的自然语言处理任务。其主要应用场景包括:
- 自然语言推理的任务是评估两个句子之间的关系类型(包含关系、矛盾关系或中立关系)。
- 问答与常识推理模块旨在根据提供的文章内容和候选答案集合,在一定范围内计算出最符合实际的答案。
- 语义相似度识别技术通过比较两段文本内容来确定它们是否存在语义关联性。
- 分类模型的任务是基于输入文本内容识别并归类到预设的不同类别中。
尽管GPT-1在某些未经优化的任务中展现出一定的能力(显示出一定的应用价值),但与经过微调优化的有监督学习任务相比(其性能表现明显逊色),因此GPT-1在对话式AI领域中仅能算是一个中等偏上的语言理解工具而非真正意义上的对话生成系统。
自2019年以来,GPT-2逐步推出,尽管如此,GPT-2主要采用了现有的架构.为了提升性能,GPT-2采用了更为复杂的参数设置和海量的数据资源.值得注意的是,尽管其规模有所增长,但并未对原有网络架构进行较大的创新性设计.在性能方面,除了提升核心理解能力外,还特别值得关注的是其生成内容的能力首次得到显著增强.具体而言,无论是阅读摘要、 chatting with users、 continuating narratives还是编写故事都能游刃有余地应对.更令人印象深刻的是,其还能轻易地完成如制造假新闻、发送钓鱼邮件或者模拟角色等看似复杂的任务.随着规模的增长,GPT-2不仅展现出广泛的应用潜力,还在多种语言建模任务中实现了当时最优的表现.
随后出现的是GPT-3。它被定义为一种无监督学习模型(也被广泛称为自监督学习模型)。这种学习模式赋予其能力去胜任大部分自然语言处理任务。这些包括如问题导向搜索、阅读理解以及语义推断等多种类型的任务。在多项任务上表现出色,在法语至英语及德语至英语机器翻译领域均取得了最佳水平。能够几乎让人无法分辨出自人还是机器(仅52%正确率与随机相当),而在两位数加减运算中达到了几乎100%的正确率,并能根据任务描述自动生成相应的代码。这些特性表明通用人工智能的可能性或许被看到了,并且这可能是GPT-3影响如此之大的原因
GPT-3模型到底是什么?
这一技术 essentially represents a straightforward statistical language model. 在机器学习领域, 语言模型被定义为对词语序列的概率分布进行建模, 即基于已有的片段进行的概率预测. 这种模型不仅可以评估句子是否符合自然语言的语法结构(例如评估人机对话系统生成的回答是否通顺自然), 同时也可以用于生成新的句子. 举例而言, 对于一段像 "中午12点了, 我们一起去餐厅" 的片段, 该模型可以推断出后续可能出现的具体词语. 一般情况下, 模型会预测下一个是 "吃饭", 而强大的语言模型则能捕捉到时间信息并根据上下文生成合乎逻辑的新词语如 "吃午饭"
通常情况下,一个语言模型的强大程度主要依据两个方面:首先考察该模型能否充分运用全部的历史上下文信息 ,例如,在某个案例中若未能识别出"中午12点"这一远程语义信息,则该语言模型几乎不能准确预测下一个词语"吃午饭"。其次还需考察其具备多少丰富的历史上下文资源用于学习 ,即训练数据是否充足。由于这种类型的机器学习方法属于自监督学习范畴,在这种框架下优化的目标是使语言模型对所见文本的概率最大化;因此无需标注即可作为训练数据源。
因为其强大的性能与显著多出的参数量,** GPT-3囊括了更为丰富的主题文本** 。较之先前版本的‘大模型’如** GPT-2来说** ,其规模与复杂度均有显著提升。在生成模型领域处于领先地位。** GPT类大型语言模型能够将网页内容自动转换为相应的计算机代码实现** ,同时也能模拟人类叙事模式,并能生成个性化风格的艺术诗以及编写适合娱乐用途的游戏脚本等。值得注意的是,在处理语法难题方面,** GPT类大型语言模型无需额外微调训练即可完成任务** 。仅需提供少量特定类型的学习样本即可,** 其能力已远超一般语言专家的认知水平** 。
参考内容主要来源于三位专家的讨论,并结合了多位圈内人士的观点
GPT-3存在什么问题?
然而 GPT-3 不是一个完美的模型,在人工智能领域目前面临的一个突出问题就是聊天机器人和文本生成工具等技术可能会不加辨别地学习并复制网络上的所有文本内容,并且会生成大量包含错误信息、带有恶意语气甚至具有攻击性的语言内容。
OpenAI也曾经提出,会在不久的将来发布更为强大的GPT-4:

将 GPT-3 与GPT-4、 人脑进行比较(图片来源:Lex Fridman @youtube)
据说,在明年的某个时候,GPT-4将会发布,并且它将具备通过图灵测试的能力,并将能够达到与人类istinguishable(可区分的)水平;此外,在这一过程中企业的引入成本也将预计将会大幅下降

ChatGP与InstructGPT
ChatGPT与InstructGPT
谈到Chatgpt,就要聊聊它的“前身”InstructGPT。
于2022年初, OpenAI推出了InstructGPT这一人工智能模型;在这一研究中,相较于现有的 GPT-3, OpenAI采用了对齐研究(alignment research)的方法,训练出一个更加符合现实需求且更加安全可靠,并且能够更好地遵循用户意图的语言模型 InstructGPT;该模型是通过微调优化后的最新版本 GPT-3模型,能够有效地减少产生有害内容、虚假信息以及偏见性输出的可能性
InstructGPT的工作原理是什么?
开发人员通过融合监督学习与基于人类反馈的强化学习方法来提升模型输出的质量。在这种训练模式中,人类对模型可能产生的输出进行排序;强化学习算法则会对生成与高质量内容相似的结果给予正面反馈。
该训练数据集用于生成指导性提示信息,并包含多种类型的提示内容。这些指示性提示旨在涵盖不同的应用场景和用户需求特征。例如,在这些示例中,“为我讲述一只趣味性青蛙的故事”与“向一位儿童解释月球探索过程的简短段落”都体现了这一原则。
开发人员将提示分为三个部分,并以不同的方式为每个部分创建响应:
对于第一组提示而言,人类作家会做出回应。开发团队对已训练好的GPT-3模型进行了优化与调整,并将其改造为InstructGPT系统;随后将其改造为InstructGPT系统,并使其能够针对每个提示输出现有的具体回应。
下一步将对模型进行训练,并赋予其识别出更高质量回复的能力。针对第二组提示样本,优化后的模型能够生成多样化的回应内容。由人工评估员根据预设标准给每个回复打分并排序,在提供具体指令并呈现两组候选回答时(即给出一个提示和两个相应选项),通过预训练好的GPT-3语言模型(另一个辅助工具),系统能够根据人工评估结果动态调整各条回应的价值权重。
开发人员应用一组预定义提示方案与强化学习技术结合近端策略优化算法(简称PPO)对语言模型进行进一步微调优化。当系统收到提示指令时,该智能系统将根据预先设定好的指导方针生成相应的回应内容,并由奖励模型评估其性能表现以提供反馈信息。该算法通过计算奖励值来动态调整参数设置以提升整体性能表现。
本段参考:批处理大小设定为329的InstructGPT语言模型系统,在推出之际被描述为既友好又谦逊的语言模型系统。该文发布于DeepLearningAI公众号于2022年2月7日中午12点发布的文章中。
重要在何处?核心在于——人工智能需要是能够负责任的人工智能
OpenAI的语言模型在教育领域、虚拟治疗师、写作辅助工具以及角色扮演游戏等多个方面发挥着重要作用。在这些领域中,面对社会偏见、错误信息以及毒害信息的存在往往会对发展造成阻碍。通过有效规避这些问题的系统设计,能够显著提升其实际应用价值。
Chatgpt与InstructGPT的训练过程有哪些不同?
总体来说,ChatGpt与上文所述的InstructGPT具有相似性,并均采用基于从人类反馈中强化学习(RLHF)的方法进行训练。其区别主要体现在数据处理上。(进一步解释:传统的InstructGPT模型采用单输出策略,在训练阶段直接将生成结果与标准输出进行对比并给予反馈奖励或惩罚;而当前的Chatgpt则采取多输出策略,在生成阶段为输入生成多个可能的回答,并通过人工评估将这些结果从"最像人话"到"狗屁不通"进行排序排序(此处需注意排版),以此引导模型学习人类评估偏好。本段感谢张子兼博士的专业指导)

ChatGPT存在哪些局限性?
a) 在强化学习 (RL) 阶段中缺乏明确的标准答案以指导问题解答。
b) 模型的回答更为谨慎,有时会拒绝回应(以避免误判)。
c) 监督训练可能导致模型倾向于生成预设的答案,而其输出通常是基于固定规则生成,仅凭人工筛选的方式获得较高的质量。
此外,数学公式RL也被用于表示强化学习过程
注意:ChatGPT 对措辞高度敏感,在某些情况下可能会无反应。然而,在经过适当的调整后(例如将某个术语替换为其变体),它通常能够给出正确的回应。训练者的偏好通常倾向于提供更为详尽的回答(尽管它们可能显得更为全面),这可能导致过于冗长的回答(其中一些可能是由于过度依赖某些特定的术语或表达式)。当初始提示或问题不够明确时(即缺乏必要的澄清),模型可能会缺乏相应的引导信息。
最后,如果chatGPT开放使用,你会用它做什么?
