Chatgpt究竟是一个什么东西?
ChatGPT是一款聊天机器人,能够实现多种任务,包括摘要抽取、小说生成、问答等。它通过深度学习和强化学习进行训练,能够模拟人类对话并解决多种问题。 ChatGPT不仅是一个聊天工具,还可以用于生成摘要、创作小说、回答问题等。其强大的生成能力使其在多个领域展现出巨大潜力。 ChatGPT的训练方法和应用使其在对话机器人领域取得了显著进展,为人工智能的发展提供了重要参考。
一、 Chatgpt究竟是一个什么东西?
它能够实现什么样的任务和什么样的功能?
它本质是一个聊天机器人
这是我跟他聊天保留下的一些聊天截图 。

由于我最初认为他是个英语模型,因此我开始用英语向他提问,询问能否说中文。
然后得到一个肯定的回复后, 我就干脆只用中文跟他进行聊天了 。
我问他说:“ 你是怎么被训练出来的。“
他说:“ 我是通过深度学习的方法被训练出来的."
我问他:" 强化学习在你的训练过程中有起到什么样的作用 ."
他跟我说:"强化学习是一门选择力的技术, 他是用来解决reword 交互任务。
他表现出色,因为他难以一眼分辨这是由机器人生成而非人类撰写。
它能够实现什么样的任务和什么样的功能?
1. 聊天工具
这点其实不稀罕,像百度的PLAYTOR 也能做到
但其实离奇的是他不仅仅是聊天,还可以做任务测试。
一、摘要抽取

二、小说生成

三、尝试回答

四、文本分类
那在摘要抽取当中 我选择一条世界杯的信息
问他说:”能帮我抽一下这段话的摘要信息是啥吗 ?
他告诉我说:“卡塔尔世界杯1/4决赛中,克罗地亚和巴西1- 1打平,
而在点球大战中晋级了四强 。”

如何创作一段钢铁侠与绿巨人之间的对战故事?
如何创作一段钢铁侠与绿巨人之间的对战故事?
值得注意的是,在他的小说创作中,绿巨人通常会发出野兽般的咆哮和低吼,而钢铁侠则显得更加轻盈优雅。即使没有给予钢铁侠和绿巨人任何power,他依然能够清晰地识别出他们的外貌特征。

问答
请问光的速度是多少呢?它能提供一个表格化的精确结果。进行分类后,它也能确定这句话属于体育类新闻。因此,通过这个系统,我们能够看到这个聊天机器人不仅能够处理聊天,而且许多nLP相关的任务也可以通过转换为聊天的方式来实现我们的目标。

说说他更厉害的功能 ,测试下翻译功能
例如,在翻译“I'm Hungry”时,其生成的模型呈现出逐字生成的特点。
翻译成“肚”“子”“很”“饿”
但如果我们用BERT,它是一次性翻译成“肚狗很饿”
原理较为简单,ChatGPT之所以能够表现出如此高的准确性,与其逐字生成的方式密不可分。举个例子,比如生成一个“肚”字后,可以是‘肚子’或‘肚皮’。相比之下,BERT则是一次生成多个字,无法准确推断前一个字是什么。
所以更多人倾向于单项模型去做任务。
好接下来我们讲讲GPT 的发展史

GPT 是2018年背提出的,那时候有1.17亿的参数直到今天GTP 已经又1750亿的参数了。
GPT-3 无疑是一个非常巨大的模型。
Insrtuct Gpt :这是印刷GPT就是切GPT 使用的基本框架。
两者的区别:
- 用人类更喜欢的数据 去做训练(align)
GPT 基于网络中的大量数据,并不一定是人类真正需要的内容。
比如说一些比较长尾的文章 或者是一些长尾的知识 。
那我们做对话机器人,那就应该知道人们都喜欢问一些什么样的问题。
GPT 就围绕人们通常感兴趣的内容并编写答案,进行训练。
- 引入强化学习(RL)提升性天花板
强化学习是一门只告诉模型 好不好,而不告诉模型 怎样才能变好的学科
可以看出这种方案让模型具备了更大的探索自由度,从而突破了学习的天花板。
比如:今天我们要去训练一个对话机器人, “女朋友生气 怎么办?‘’
如果你要做一个监督学习的模型的话, 可能就会让一个人去说
1. 跟他道歉
2. 就是说陪他逛街
3. 提醒他要多喝热水
那我再遇到女朋友生气怎么办 ,就可以从这些参考级别去思考。
像这样的对话训练,其实我们都已经知道这个模型的天花板在哪里了。
最好的效果就是从这几个选项当中去选择。
那强化学习版怎么做呢?
把人工标注的部分改成人工打分的部分,那就不会给出答案,
而是告诉他你觉得应该给出什么样的回答。
那模型就会自行猜测,例如在与女朋友发生争执时,我们就可以对其进行负面评价,例如-5分,这显然不是一个明智的选择。
模型会意识到这种做法是被禁止的,可能会以讲道理的方式回应。我们可能会觉得这种回应效果不佳,因此对其进行-1分评价。模型会明白,不能吵架,也不能讲道理,从而承认错误。我们觉得这种行为还是可以接受的,因此对其进行+3分的正向评价。
在强化学习中,我们并未指示模型具体如何应对女朋友生气,而是让模型识别哪些行为是积极的,哪些是消极的。由于人类语言的多样性,我们难以设计一个统一的模板来涵盖所有情况。仅希望模型理解什么行为是积极的,什么行为是消极的。
这一问题具有重要意义,首先需要探讨的是为什么选择将强化学习的概念纳入其中,以及为什么将其纳入其中能够带来更优的效果的根本原因。
好了,下一篇 再讲 CHATGPT 的训练流程 。
