Advertisement

Chatgpt究竟是一个什么东西?

阅读量:

ChatGPT是一款聊天机器人,能够实现多种任务,包括摘要抽取、小说生成、问答等。它通过深度学习和强化学习进行训练,能够模拟人类对话并解决多种问题。 ChatGPT不仅是一个聊天工具,还可以用于生成摘要、创作小说、回答问题等。其强大的生成能力使其在多个领域展现出巨大潜力。 ChatGPT的训练方法和应用使其在对话机器人领域取得了显著进展,为人工智能的发展提供了重要参考。

一、 Chatgpt究竟是一个什么东西?

它能够实现什么样的任务和什么样的功能?

它本质是一个聊天机器人

这是我跟他聊天保留下的一些聊天截图 。

由于我最初认为他是个英语模型,因此我开始用英语向他提问,询问能否说中文。

然后得到一个肯定的回复后, 我就干脆只用中文跟他进行聊天了 。

我问他说:“ 你是怎么被训练出来的。“

他说:“ 我是通过深度学习的方法被训练出来的."

我问他:" 强化学习在你的训练过程中有起到什么样的作用 ."

他跟我说:"强化学习是一门选择力的技术, 他是用来解决reword 交互任务。

他表现出色,因为他难以一眼分辨这是由机器人生成而非人类撰写。

它能够实现什么样的任务和什么样的功能?

1. 聊天工具

这点其实不稀罕,像百度的PLAYTOR 也能做到

但其实离奇的是他不仅仅是聊天,还可以做任务测试。

一、摘要抽取

二、小说生成

三、尝试回答

四、文本分类

那在摘要抽取当中 我选择一条世界杯的信息

问他说:”能帮我抽一下这段话的摘要信息是啥吗 ?

他告诉我说:“卡塔尔世界杯1/4决赛中,克罗地亚和巴西1- 1打平,

而在点球大战中晋级了四强 。”

如何创作一段钢铁侠与绿巨人之间的对战故事?

如何创作一段钢铁侠与绿巨人之间的对战故事?

值得注意的是,在他的小说创作中,绿巨人通常会发出野兽般的咆哮和低吼,而钢铁侠则显得更加轻盈优雅。即使没有给予钢铁侠和绿巨人任何power,他依然能够清晰地识别出他们的外貌特征。

问答

请问光的速度是多少呢?它能提供一个表格化的精确结果。进行分类后,它也能确定这句话属于体育类新闻。因此,通过这个系统,我们能够看到这个聊天机器人不仅能够处理聊天,而且许多nLP相关的任务也可以通过转换为聊天的方式来实现我们的目标。

说说他更厉害的功能 ,测试下翻译功能

例如,在翻译“I'm Hungry”时,其生成的模型呈现出逐字生成的特点。

翻译成“肚”“子”“很”“饿”

但如果我们用BERT,它是一次性翻译成“肚狗很饿”

原理较为简单,ChatGPT之所以能够表现出如此高的准确性,与其逐字生成的方式密不可分。举个例子,比如生成一个“肚”字后,可以是‘肚子’或‘肚皮’。相比之下,BERT则是一次生成多个字,无法准确推断前一个字是什么。

所以更多人倾向于单项模型去做任务。

好接下来我们讲讲GPT 的发展史

GPT 是2018年背提出的,那时候有1.17亿的参数直到今天GTP 已经又1750亿的参数了。

GPT-3 无疑是一个非常巨大的模型。

Insrtuct Gpt :这是印刷GPT就是切GPT 使用的基本框架。

两者的区别:

  1. 用人类更喜欢的数据 去做训练(align)

GPT 基于网络中的大量数据,并不一定是人类真正需要的内容。

比如说一些比较长尾的文章 或者是一些长尾的知识 。

那我们做对话机器人,那就应该知道人们都喜欢问一些什么样的问题。

GPT 就围绕人们通常感兴趣的内容并编写答案,进行训练。

  1. 引入强化学习(RL)提升性天花板

强化学习是一门只告诉模型 好不好,而不告诉模型 怎样才能变好的学科

可以看出这种方案让模型具备了更大的探索自由度,从而突破了学习的天花板。

比如:今天我们要去训练一个对话机器人, “女朋友生气 怎么办?‘’

如果你要做一个监督学习的模型的话, 可能就会让一个人去说

1. 跟他道歉

2. 就是说陪他逛街

3. 提醒他要多喝热水

那我再遇到女朋友生气怎么办 ,就可以从这些参考级别去思考。

像这样的对话训练,其实我们都已经知道这个模型的天花板在哪里了。

最好的效果就是从这几个选项当中去选择。

​那强化学习版怎么做呢?

把人工标注的部分改成人工打分的部分,那就不会给出答案,

​​​​而是告诉他你觉得应该给出什么样的回答。

那模型就会自行猜测,例如在与女朋友发生争执时,我们就可以对其进行负面评价,例如-5分,这显然不是一个明智的选择。

模型会意识到这种做法是被禁止的,可能会以讲道理的方式回应。我们可能会觉得这种回应效果不佳,因此对其进行-1分评价。模型会明白,不能吵架,也不能讲道理,从而承认错误。我们觉得这种行为还是可以接受的,因此对其进行+3分的正向评价。

在强化学习中,我们并未指示模型具体如何应对女朋友生气,而是让模型识别哪些行为是积极的,哪些是消极的。由于人类语言的多样性,我们难以设计一个统一的模板来涵盖所有情况。仅希望模型理解什么行为是积极的,什么行为是消极的。

这一问题具有重要意义,首先需要探讨的是为什么选择将强化学习的概念纳入其中,以及为什么将其纳入其中能够带来更优的效果的根本原因。

好了,下一篇 再讲 CHATGPT 的训练流程 。

​​​​

​​​​

全部评论 (0)

还没有任何评论哟~