【人工智能】论未来人工智能的大模型生态:重塑技术前景与应用

目录
未来人工智能大模型生态:重塑技术前景与应用
引言
OpenAI 的 AGI 愿景
大模型的崛起
模型演进
训练规模与计算能力
大模型生态的应用前景
自然语言处理
计算机视觉
语音识别与合成
跨模态应用
大模型生态的挑战与机遇
数据安全与隐私
泛化能力和可解释性
能源消耗与环境影响
大模型的优势
更精确的预测能力
泛化能力
大模型面临的挑战
计算资源需求
数据隐私问题
应用场景
自然语言处理
游戏智能体
医疗健康领域
产品方向
1)更普惠的 AGI 产品与“数据-应用”飞轮
2)收集更多有效数据反哺基础模型与“数据-模型”飞轮
3)两个数据飞轮之间的迁移与博弈
大模型的未来行为推演
3.2.1 技术
1)进一步增加 LLM 没见过的有效数据,拥抱多模态
2)RL 的 Scale
3)Robotics 与 Embodied AGI(具身智能)
4)寻求能更高效 Scale 更多模态数据的新算法架构
5)对于模型的推理和涌现能力的深度理解
6)增加模型的可靠性、可控性和安全性
LMM 产业链分析:宏观视角下 LLM 生态
当前行业增量营收分布推测:
应用层 30-40%,模型层 0-10%,计算基础设施服务 50-70%
未来应用层高速增长且毛利可能改善,模型层竞争加剧,计算基础设施厂商将持续高速增长
LLM 是否会进入价格战,模型层价格收否终将收敛到云计算的价格?
路径不同的 LLM 公司是会分岔还是收敛?
LLM:开源 VS 闭源?
计算基础设施层的增量会有多大?是否有新云的机会?如果有新云,是由上往下还是由下往上?
下游应用和工具是否有稳定的生存空间
模型层与应用层的价值分配
C 端的超级流量入口?平台还是管道(Platform VS Pipeline)?
结论
参考资料:
模型一览
Meta/Facebook AI
BigScience (非盈利兴趣组织)
EleutherAI
OpenAI
未来人工智能大模型生态:重塑技术前景与应用
随着人工智能技术的飞速发展,大型模型如OpenAI的GPT系列等在众多领域展现出了令人惊叹的应用效果。这些深度学习模型的诞生引领了一场技术革命,其广泛的应用前景和潜力引起了全球范围内的关注。本文旨在探讨未来人工智能大模型生态的发展趋势,以及如何利用这些技术来创造价值并解决现实问题。
引言
未来人工智能的大模型生态将是一个复杂的生态系统,由多个不同类型的人工智能模型组成,这些模型将在各自的领域内相互竞争和合作。
一方面,大型预训练语言模型(Large Pre-trained Language Models) 将成为人工智能领域的重要发展方向。这些模型将以海量的数据为基础,通过无监督学习的方式自动提取语言的特征和规律,并可以在各种自然语言处理任务中进行微调,达到出色的效果。
目前,代表性的大型预训练语言模型包括GPT-3、BERT 等。
另一方面,人工智能模型也将向更加专业化和领域化 的方向发展。例如,在自然语言处理领域,将出现更加专注于某一特定任务或领域的模型,例如机器翻译模型、语音识别模型、情感分析模型 等。这些模型将根据不同的应用场景和需求进行不同程度的优化和调整。
此外,人工智能技术还将与其他技术相结合,例如深度学习、强化学习 、传统的机器学习、计算机视觉、自然语言处理等,形成更加复杂和综合的人工智能系统 。这些系统将在未来的智能化应用场景中发挥越来越重要的作用。
未来人工智能大模型生态将是一个庞大而复杂的系统,包括大量的人工智能大模型、训练和部署工具、数据集和算法库 等组成部分。这个生态系统 将为各种应用场景提供强大的计算能力和智能化的决策支持。
目前,已经有不少公司和组织在不断地推进人工智能大模型生态的建设。例如,OpenAI、Google、Facebook等公司都在开发和部署自己的大模型,并提供相应的训练和部署工具。同时,各种云计算服务商 也在推出针对人工智能大模型的云端计算服务,为用户提供高性能的计算资源。
在未来,人工智能大模型生态的发展将会出现以下趋势:
大模型的规模和性能 将不断提升:随着计算硬件和算法 的不断进步,大模型的规模和性能将越来越强大。未来的大模型可能会达到亿级别的参数规模,并且能够在短时间内完成训练和推理。
大模型的应用场景 将不断扩展:人工智能大模型将会被应用到更多的领域和场景中,包括自然语言处理、图像识别、智能推荐、医疗保健等。
大模型的可解释性和安全性 将成为关键问题:随着大模型的规模和复杂度的提升,其可解释性和安全性将成为重要的问题。未来的研究将会致力于解决这些问题,以便更好地理解大模型的决策过程和保障其安全性。
大模型的开源和共享 将成为趋势:为了促进人工智能技术的发展和应用,越来越多的大模型将会被开源和共享。这将有助于减少重复研发、提高研究效率,同时也能够促进技术的进步和创新。
OpenAI 的 AGI 愿景
在开始分析前,我们将 OpenAI 不同时期对自己 AGI 目标的描述进行回顾:
「Our goal is to advance digital intelligence in the way that is most likely to benefit humanity as a whole, unconstrained by a need to generate financial return.」——2015 年 12 月 11 日《Introducing OpenAI》
「Our mission is to ensure that artificial general intelligence—AI systems that are generally smarter than humans—benefits all of humanity.」——2023 年 2 月 14 日《Planning for AGI and beyond》
第一个变化是增加了对 AGI 的描述,指明了 AGI 的智慧程度会高于人类智能。
第二个变化是由不以财务回报为目的改为了普惠人类。
AGI 的概念目前并没有已形成共识的精准定义。前者变化是 OpenAI 基于过去几年的探索给出的判断,其追求 AGI 的本质没有改变。后者则是 OpenAI 在更深入的技术探索后,进行了股权结构和商业化策略的调整,背后逻辑后续会详细展开。
总体而言,鉴于 OpenAI 的历史言论和行动保持高度一致性,我们有理由相信:OpenAI 一直并将继续以追求普惠的 AGI 为第一目标 ——这个假设是本文后续进行生态推演的基本前提。
大模型的崛起
模型演进
人工智能大模型的崛起始于深度学习领域的突破性进展。2012年,AlexNet在ImageNet图像分类任务上取得了突破性成果,标志着深度学习时代的到来。随后,卷积神经网络(CNN)在计算机视觉领域取得了显著的成果,循环神经网络(RNN)则在自然语言处理领域崭露头角。
2018年,Google推出了BERT模型,引领了自然语言处理领域的变革。BERT模型采用了基于Transformer结构的双向训练策略,极大地提高了自然语言理解任务的性能。此后,大型预训练模型在自然语言处理领域蓬勃发展,例如OpenAI的GPT系列、微软的Turing系列等。
训练规模与计算能力
随着模型规模的不断扩大和训练数据的增多,计算能力需求急剧上升。目前,训练一个大型模型需要消耗大量的计算资源,如GPU、TPU等。这种情况在一定程度上限制了大型模型的发展,同时也引发了关于环境影响和公平性的讨论。未来,提高训练效率、降低计算成本、减少能源消耗将成为大型模型生态发展的重要课题。
大模型生态的应用前景
自然语言处理
大型预训练模型在自然语言处理领域取得了显著的成果。除了传统的文本分类、情感分析、命名实体识别等任务外,它们还在机器翻译、摘要生成、问答系统等方面展现出了强大的能力。未来,大型模型有望进一步提升自然语言处理任务的性能,拓展其在智能客服、教育辅导、新闻编辑等领域的应用。
计算机视觉
计算机视觉是另一个受益于大型模型发展的领域。现有的模型已在图像分类、目标检测、语义分割等任务上取得了优异的成绩。随着技术的深化,大型模型在视频理解、生成对抗网络(GAN)等方面的应用也在不断拓展。预计未来将实现更多高质量的视觉应用,如智能监控、医学图像分析等。
语音识别与合成
语音识别和合成是人工智能的另一个重要应用领域,许多大型模型已经在这一领域取得了显著的进展。例如,Google 的 WaveNet 和 DeepMind 的 Tacotron 系列模型在语音合成任务上表现出色,能够生成自然且富有表现力的人声。此外,自动语音识别(ASR)系统也在不断优化,应用于智能助手、语音搜索等场景。未来,大型模型有望进一步提升语音识别与合成的性能,实现更加智能化的语音应用。
跨模态应用
跨模态应用是大型模型的一个新兴发展方向,涉及到多种模态信息的融合与处理,如文本、图像、音频等。DALL-E 是一个典型的跨模态应用实例,该模型能够根据给定的文本描述生成相应的图像。类似的应用还包括视频问答、音频-文本转换等。随着技术的进步,跨模态应用有望在各个领域得到广泛应用,如广告创意、艺术创作等。
大模型生态的挑战与机遇
数据安全与隐私
大型模型的训练需要大量的数据输入,这可能涉及到数据隐私和安全问题。例如,训练数据中可能包含敏感信息或知识产权问题。未来,保护数据隐私和确保数据安全将成为大型模型生态发展的关键挑战。针对这一问题,研究者已经在探索如同态加密、差分隐私等技术,以降低数据泄露的风险。
泛化能力和可解释性
尽管大型模型在许多任务上取得了显著的成果,但其泛化能力和可解释性仍有待提高。模型可能在面对新颖情境时表现不佳,或者无法为其预测提供合理的解释。未来,提高模型泛化能力和可解释性将成为重要的研究方向。一些研究者已经在探讨元学习、因果推理等方法,以提升模型在这方面的表现。
能源消耗与环境影响
训练大型模型需要消耗海量的计算资源和能源,这给环境带来了不小的压力。因此,降低能源消耗和减轻环境影响成为大型模型生态发展的重要课题。未来,研究者可能会探索更加高效的模型架构和算法,以降低能源需求。同时,可持续计算和绿色能源技术的发展也将为大型模型生态提供支持。
大模型的优势
更精确的预测能力
大模型可以处理更多的数据,因此在进行模型训练时,其学习能力会更强。对于语言模型来说,能够根据上下文提供更为准确的预测,从而提高聊天机器人、智能助手等的性能。
泛化能力
大模型具有较强的泛化能力,能够在多个任务和领域上取得良好的性能。通过训练大量相似任务的数据及场景,大模型可以在具有相似属性的任务上取得较好的迁移学习效果。
大模型面临的挑战
计算资源需求
大模型需要更多的计算资源进行训练,这可能使得小型团队或个人难以承受。超大型模型往往需要消耗大量的算力来扩展,而这些资源可能会导致环境负担。
数据隐私问题
由于大模型需要大量数据进行训练,难以避免地会碰触数据隐私方面的问题。合规性和数据安全成为重要挑战,需要解决技术和法律层面的矛盾。
应用场景
自然语言处理
大模型在自然语言处理(NLP)领域有很强的潜力,例如情感分析、自动生成摘要和文本生成等任务。
游戏智能体
大模型能够生成更高质量的智能体,在游戏领域为玩家提供一个更加深入和活泼的游戏体验。
医疗健康领域
利用大模型强大的数据分析能力,医疗健康领域可获益于疾病诊断、药物研发和生物信息学研究等方面的智能化支持。
产品方向
我们认为 OpenAI 在产品方向的所有行为都可以被其在产品工作的两个目标及其衍生的两个业务飞轮来进行解释。其中两个核心目标:
设计出能够帮助 OpenAI 收集更多有效数据的产品形态,以追求更高的 AGI 智能。 *
设计出基于当前 AGI 模型能力,更普惠大众的产品 。
根据目标衍生出了两个业务飞轮:
1)更普惠的 AGI 产品与“数据-应用”飞轮
此类产品的目标是:围绕 AGI 模型的能力,搭建能被友好、有效地被 C 端大众和 B 端公司使用的产品,以将 AGI 赋能并普惠人类社会。其中:
ChatGPT
GPT-1-4 系列的 API
Codex API
等都是此类产品。C 端用户可以通过此类产品提升日常生活的各类任务效率,解决各类问题;而 B 端用户则能通过此类产品获得 AGI 模型的能力,帮助自己搭建垂直场景的产品解决方案,并通过“数据-应用”飞轮迭代自己的数据壁垒和产品优势。

2)收集更多有效数据反哺基础模型与“数据-模型”飞轮
此类产品的目标是:基于 OpenAI 的模型能力和技术储备,搭建特定产品场景,吸引特定能力或兴趣的用户,通过用户行为反馈积累特定的有效数据,反哺 AGI 基础模型。这类产品由于所需的数据、能贡献数据的用户群体不同,产品形态和面向的市场各有差异。
DALL·E 与 Clip:图-文数据
ChatGPT Plugin:用户通过应用及 API 构建复杂任务处理方案的数据
OpenAI Codex Playground:用代码构建不同应用程序数据
OpenAI Universe:各类强化学习任务及训练数据
Rubik's Cube:模型与物理世界互动数据

3)两个数据飞轮之间的迁移与博弈
一个关键并且有趣的事实:上述这两个目标及其衍生的业务飞轮事实上存在一些微妙的结构性矛盾,而这正是一些让人困惑的现象和行为背后的底层原因。OpenAI 自身产品与其上层生态应用产品会在两个数据飞轮间迁移和博弈 。

迁移一:OpenAI 自身产品的产品目标,可能会由收集数据反哺大模型,迁移至构建生态普惠大众
典型案例如 GPT 系列模型的 API 产品。GPT-1 与 GPT-2 是 OpenAI 在 LLM 模型上的初期产物,这个阶段的 OpenAI 需要更多的高质量文本数据,因此只向有限高质量用户开放 API,并且以免费和极低的浮动价格提供给用户。到了 GPT-3 发布时,OpenAI 在 LLM 能力上逐渐拉满,通用的文本数据对模型本身的能力提升 ROI 降低,因此 OpenAI 此时对产品进行标准定价并开放给更多用户。到今日,该系列产品已为不需要 waitlist 的标准产品。
迁移二:OpenAI 基础模型的能力提升,会导致部分层生态应用产品的用户向 OpenAI 自身产品迁移
典型案例如 Jasper 与 ChatGPT。由于 GPT 系列模型的 Alignment 问题,和 API 本身对 C 端用户的易用性问题,在 ChatGPT 发布前普通用户难以使用 LLM 的语言理解与生成能力。因此 Jasper 基于对 GPT 模型能力的理解和使用经验,打造了优于市面所有竞品的营销内容生成平台,并用一年多的时间迅速涨至 9000万 美金的 ARR。然而 ChatGPT 的面市将 Jasper 的优势迅速拉低,模型能力之上过薄的产品令市场质疑其业务的护城河。虽然目前公司的营收仍在高速增长,但是 Jasper 也不得不从营销内容生成平台向营销链路 SaaS 转型,以获取更安全的生态位。这类迁移不是 OpenAI 主观设计的,却是基础模型能力提升必然会发生的。
博弈一:有助于提升 AGI 通用能力的场景与用户行为数据的争夺
典型案例如 ChatGPT Plugin与 Langchain。Langchain 是一个基于 GPT 生态的工具层开源项目,为开发者用户提供了将私有数据和实时搜索结果与 LLM 能力结合构建应用的方案,是 GPT 生态的重要组件。Langchain 是当前生态最活跃的玩家之一,公司于 2023 年 3 月获得 Benchmark Capital 1000 万美金的首轮投资。然而就在 Langchain 宣布融资消息一周后,OpenAI 推出 ChatGPT Plugins 插件集。Plugins 能够:
1)调用互联网数据解决实效性问题;
2)接入第三方私有数据;
3)操作外部应用。
丰富有用的能力组件直接挤压了 Langchain 的生存空间。然而与市场上认为“Plugins 是 OpenAI 出于商业化目的为构建 LLM 时代的应用商店而推出的”主流观点不同。我们认为 OpenAI 推出 Plugins 的本质原因是为了获取“用户为了解决特定任务时会如何使用应用程序和 API 的行为数据”。
值得注意的是,“正确理解用户意图,准确选择并使用合适的工具可靠地完成任务”这个场景目前竞争激烈。除了 OpenAI 外,Adept AI、Inflection AI 以及 Meta 的 Toolformer 模型都在竞争此领域的生态位。进一步讨论,如果 LLM 未来真的成为新一代的人机交互界面,准确性和可靠性是必要条件。
博弈二:深度垂直场景的数据与用户争夺
典型案例如 BloomBergGPT。2023 年 3 月 30 日,BloomBerg 发布自研垂直领域 GPT 模型 BloombergGPT,模型参数 50B,训练 Token 700B,其中私有金融数据和公开数据各一半。在私有金融任务上的表现远高于当前的 GPT 模型。

换言之,如果垂直领域的任务复杂度足够深、数据足够独特且数据量足够大,不拥抱通用 LLM 生态而自研垂直领域大模型,可能是一个至少短期内合理的博弈。
整体而言,这两个数据飞轮之间的产品迁移和博弈将会持续存在。
大模型的未来行为推演
3.2.1 技术
如前文分析,在 OpenAI 的技术理解和审美下,数据和参数量的 Scale 是必然选择,而 Generative Model 和 Transformer 则是当下的最优选择 。基于此,我们大胆对 OpenAI 接下来的技术行动做一些预测:

1)进一步增加 LLM 没见过的有效数据,拥抱多模态

通用文本数据:边际收益变低,引入更多其他类型的文本数据,如代码、其他可计算语言
图像视频等模态数据:图像和视频数据在 Transformer 架构下训练效率很低, Scale 的训练成本会以平方或平方以上级上升
与比特世界的互动数据:如前文所述,OpenAI 一直想做 RL(强化学习),但过去 Robotics 的RL很难Scale,但在比特世界有大量的用户场景可以尝试
与物理世界的互动数据:通过机器人等与物理世界互动做 RL 的 Scale,这里的进度很大程度取决于机器人技术的发展速度
2)RL 的 Scale
与 Genrative Model 相似,RL 也是符合 OpenAI 审美的算法。虽然 RL 对于目前已发布的 GPT 系列模型贡献较小,但 GPT-3.5 初步将 Instruction Tunning(指令微调)和 RL 结合放大,已经显示出了令人惊喜的效果。未来预计 OpenAI 会用更 Scale 的 RL(RLHF,RLAIF)手段辅助基础模型训练。并且如今有了更多 C 端流量在手,不排除未来 OpenAI 会把一些产品变成 RL 的 Agent 来辅助训练的可能(如用 ChatGPT Plugin 做“开发者行为相关和工具使用”的 RL 训练)。
3)Robotics 与 Embodied AGI(具身智能)
我们认为在当前时间点,比起 AGI for Robotics,OpenAI 更关心的是 Robotics for AGI。通过 Robotics 与环境互动和感知感官信息的能力,来增加 AGI 基础模型对物理世界的理解和认知推理能力。
4)寻求能更高效 Scale 更多模态数据的新算法架构
Transformer 仍为当前 OpenAI 算法架构的最优选。它对于文本模态的 Scale 很高效,但是对于图像视频等模态很低效。因此 GPT-4 之后,OpenAI 寻求更高效的算法架构的需求变得更紧迫。我们有理由相信 OpenAI 内部正在做 Transformer 变体甚至更新的算法架构的模型训练实验。
5)对于模型的推理和涌现能力的深度理解
现在学术界对于 LLM 的涌现和推理能力的理解还在早期。我们相信下一个词预测的准确性和推理能力在高维空间必然存在数学联系,但复杂难以研究。技术领域最好的创新其实都来自于对已知的本质理解。对这个领域的深度研究会很有价值。
6)增加模型的可靠性、可控性和安全性
可靠性:Hallucination 问题的弱化;
可控性:准确的理解并执行任务。今天 ChatGPT 引入了 Wolfram,用第三方组件的方式给了过渡方案。未来一定会努力在模型本身增加可控性;
安全性:不作恶以及不被恶人利用。
在这三点上,如何做好 Alignment 很重要。RLHF(Reinforcement Learning from Human Feedback)只是第一步。
LMM 产业链分析:宏观视角下 LLM 生态
当前行业增量营收分布推测:
应用层 30-40%,模型层 0-10%,计算基础设施服务 50-70%

1)应用层拿走 30-40% 价值
根据 A16Z 对美国 LLM 创业调研,纯应用厂商毛利约 60%-80%,20-40% 的营收用于推理和模型 fine-tuning;
应用厂商当前用户和营收增长迅速,当前已经多厂商 ARR 达 1 亿美金;
虽然用户数量和营收都在高速增长,但很多应用厂商都面临用户留存率低、竞争加剧和护城河浅等关键问题;
2)模型层拿走 0-10% 价值
根据 GPT-3.5 的模型参数量和价格测算,推测 OpenAI 几乎是以成本或极低的毛利对 API 定价。且根据对海外竞品 LLM 公司的访谈,竞品同类能力模型都在做推理成本优化以匹配 GPT-3.5 的价格(尚未达到);
未来纯模型厂商若模型能力与 OpenAI 的标准产品同质化,推理价格必然需要长期匹配有限盈利的 OpenAI 普惠大众的商业化策略。LLM 的训练成本又极高,纯模型厂商面临极大的商业化压力;
3)计算基础设施服务层(计算硬件+云计算)拿走 50-70% 价值
推理上拿到 20-40% 的价值;
训练成本极高:以当前的 A100 价格计算,千亿模型(GPT-3.5)训练成本约 2000 万人民币;在 LLM 进入多模态阶段后,预计 SOTA 的模型训练计算量增长会超过单位计算成本的下降速度,且短期内会有更多模型层玩家进入市场,预计 1-3 年内 LLM 的训练市场会增长迅速。
训练侧更多 LLM 玩家的入场及多模态模型进一步 Scale,推理侧 LLM 在进入爆发式增长起点,云计算和计算硬件市场将加速增长。云计算厂商行业格局可能发生较大变动。
4)由于当前 LLM 生态在发展初期,开发者工具的生态位还不稳定 ,本文暂不展开讨论。
未来应用层高速增长且毛利可能改善,模型层竞争加剧,计算基础设施厂商将持续高速增长
需要注意的是,现阶段 LLM 仍处于大规模研发期,很多 LLM 新玩家才刚入场。且 LLM 在应用层的潜力还没有被挖掘,大规模渗透还没有开始,LLM 的训练成本未被摊销。因此云计算和硬件厂商成了这一时期的最大玩家。我们认为此时的价值链分布为 LLM 行业发展早期的状态。行业生态真正成型后的价值链分布将与现阶段大相径庭。
1)应用层:随着 LLM 在各类应用场景的潜力被挖掘,应用层将加速增长。同时由于模型层竞争加剧可能导致的价格战,预期应用层毛利会改善。不过同质化的应用同样会导致价格战,这就要求应用层公司将壁垒建立在基础模型能力之外,我们认为能够差异化产品或建立网络效应的应用层公司会真正获得最大的产业链价值 。
2)模型层:OpenAI 的定价策略将会成为纯模型 API 的定价标准。预计 OpenAI 会坚持普惠大众的有限盈利商业化策略(如:2023 年 3 月 ChatGPT 降价 90% ),不具备显著技术优势的 LLM 公司靠卖模型 API 盈利预计会很艰难。只有真正掌握全球 SOTA 模型及成本控制能力的公司才掌握模型定价权 。
3)计算基础设施服务层(计算硬件+云计算):训练推理双增长,全行业获得新的增长曲线。新的增长可能也是行业洗牌的机会,如何与 LLM 配合获得主动权对云计算厂商至关重要。同时要注意一些应用层公司或硬件层公司做新云的可能性。
在盘点了当前 LLM 生态的宏观格局后,我们放大讨论各个局部,开放式地提出一些值得探讨的话题。但是现在行业处于剧烈变化的阶段,我们基于当前的理解给出一观点,更多的是为了激发大家的讨论。
LLM 是否会进入价格战,模型层价格收否终将收敛到云计算的价格?
讨论这个问题前,首先需要提出两个问题:
1)LLM 的价值点到底是什么?是 LLM 提供的信息获取、理解与推理能力,还是新的人机交互界面的革新?
前者模型的发展目标是进一步提升的复杂推理和高级智能能力。后者模型的当务之急增加对人类任务的理解力,加强使用工具应用的可靠性和准确性。两者当前的模型发展重点是有细微分岔的。
2)新入场的 LLM 公司的自我定位是什么?是探索 AI 智能极限的 AGI 公司,还是地域版的 OpenAI 镜面公司,还是商业化 LLM 公司?
我们认为现阶段,复刻 GPT-3.5 和 ChatGPT 本质是工程问题,复刻 GPT-4 以后的 OpenAI SOTA 模型需要的则是算法科研能力。而要探索 AGI,则需要极强的技术洞见,独立的技术判断(OpenAI 不一定是正确答案),真正的 AGI 信仰和长期有耐心。
不可否认,GPT-3.5 和 ChatGPT 就已经具备充分的商业化潜力了。
但是我们认为从模型能力角度,GPT-3.5 和 ChatGPT 级别的模型能力将在 1-2 年在各个 LLM 团队内拉平。如果公司的模型能力停留在这个水平,模型 API 的价格战不可避免,终将趋向于成本。而真正能独占性地持续迭代出 SOTA 模型的厂商才能掌握定价权。
另一方面从产品形态角度,API本身不会成为平台,只会成为通道。以 AGI 模型能力为基础打造具有聚合能力的平台型产品,占据有利的生态位,才可能摘取更多的价值。
需要声明的是,长期来看,我们不认为这一波 AI 浪潮的价值都会被基础设施厂商消化。与国内 2010 年后的第一波 CV(Computer Vision)浪潮不同,现今 LLM 的下游高价值场景非常发散,并不会收敛到 1-3 个(人脸识别在安防、身份认证等)标准场景上。LLM 模型层将获得更多溢价。
路径不同的 LLM 公司是会分岔还是收敛?
如上个问题所述,不同自我定位和目标的 LLM 公司会在下一个赛段短期内分岔发展。而长期的工作需要时间才会有阶段性成果(GPT 路线走了 5 年)。
我们认为 LLM 模型发展发向很有可能是一个“收敛-发散-再收敛”的过程。短期工作有很多会收敛,接下来在垂直领域会分岔,当长期工作有了阶段性成果后会再收敛。
LLM:开源 VS 闭源?
观察文生图领域,Stable Diffusion 和 MidJourney 仍然在拉锯竞争。而 LLM 领域, LLaMA+LoRA 项目遍地开花,人人都可以训练一个大模型。两个生态会如何演化?
我们提供一个分析角度:开源本质是产品研发和 GTM 的一种方式。社区的活跃程度不能等同于商业价值。对于 LLM 的研发,开源是否能提供闭源不具备的价值?无论 GTM 的路径是什么,客户最后买单的是产品价值。开源闭源产品能力或服务体验是闭源产品无法满足的?
计算基础设施层的增量会有多大?是否有新云的机会?如果有新云,是由上往下还是由下往上?
2023 年 4 月 5 日, ChatGPT Plus 停止新的付费注册,据称是因为微软的计算资源不够了。不管消息是否属实,LLM 已经并且将持续增加对计算基础设施的需求显而易见,甚至可能导致云计算行业的洗牌 。关于AI对于云计算的增量有多大,取决于人类在比特世界的活动会多大程度被 AI 渗透。这需要对模型能力进行预测及对每个细分场景进行分析,今天暂不详细展开。
英伟达 2023 年 3 月的 GTC 大会发布的四款推理平台中,H100-NVL(2卡,显存94GB*2HBM3)——为什么不是 80G(单卡平台的显存)*2?因为放不下GPT-3 176B 的参数量。同时,英伟达发布 DGX Cloud 产品,企业可以直接租用集群进行各类 AI 模型训练和 fine-tune,消除了部署和搭建基础设施的复杂性,越过了传统云计算厂商。这让我们不禁怀疑,AI 带来巨大计算增量是不是让英伟达燃起了做云计算的野心?
另一个角度,真正远超竞争对手模型能力的 LLM 公司,是否有机会向下延伸,打出一朵新云? 正如前文分析,计算基础设施是当前生态中确定性最高的可持续获利且有壁垒的的环节。如果 SOTA LLM 和某家云服务独家绑定,下游客户对 SOTA LLM 的粘性很可能高于云服务商,这里的潜在机会非常值得深入研究。
毋庸置疑的是,无论是新老玩家,与 LLM 的竞和战略对云计算服务厂商至关重要(就在发文当天,AWS 发布 Amazon Bedrock,正式加入战局)。
下游应用和工具是否有稳定的生存空间
Jasper 和 Langchain 的遭遇引发了创业者的巨大争论:能力快速升级的 OpenAI 会不会逐步蚕食下游应用和工具的生存空间?
我们认为创业者可以拆成 2 层看这个问题:
1)问题1: AGI 不停升级的基础模型能力,是否会自然覆盖我的产品核心竞争力?
如果产品的核心竞争力完全是模型能力的浅层封装,公司的生存空间自然不稳定。应用层公司应努力构建自由业务的网络效应或数据积累。以 Jasper 举例,如果公司能够将核心产品竞争力从单一的“智能化营销内容生产”转为“最智能的 All-in-One 营销平台”,那与 ChatGPT 的竞争担心就会大大减弱。当然这就让 Jasper 面临和 Salesforce、Hubspot 等传统营销平台的竞争。各个垂直场景新老玩家谁能胜出,也是一个值得展开研究的话题。
2)问题2: OpenAI 为了不断发展 AGI,是否希望获得我场景中的数据?
这个问题就回到了两个数据飞轮间的博弈,且不仅仅是技术的博弈。OpenAI 会持续希望获得自己模型没有学习过的非同质化有效数据。
Langchain 的场景拥有 OpenAI 希望获得的“开发者通过使用各类工具构建应用,来完成用户任务”的数据,而场景高度依赖 GPT 生态,自然场景和数据都被 OpenAI 回收了;
Bloomberg 则不然。我们相信拿 Bloomberg 的数据 fine-tune GPT 模型,无论是效果还是成本都会优于 BloombergGPT。但 Bloomberg 掌握了金融的深度场景、量足够大且足够独特的私有数据,便掌握了和 OpenAI 博弈的能力。当然另一个层面的囚徒困境是:如果你选择不拥抱通用模型生态,是否会输给搭建于大模型之上的竞争对手?
模型层与应用层的价值分配
首先,由于 OpenAI 实际掌握了 LLM 模型的行业定价权,基于我们对 OpenAI 会持续追求普惠 AGI 愿景和有限盈利架构的判断,我们认为 OpenAI 不会主观侵占下游应用的利润空间。
那么当底层 LLM 模型的参数量逐年上升,模型的推理成本会不会让上游应用无法承受?
我们判断不会。因为不同智能含量的场景,需要的模型能力和能承受的模型价格都是不同的。举例来说,写 10 条小红书的营销文案可能需要月工资 5000 元的员工 1 小时,而 10 条跨国法律合同修改意见则需要小时工资 400 美元的海外律师 1 小时。二者对模型成本的敏感性显然差很多。
C 端的超级流量入口?平台还是管道(Platform VS Pipeline)?
OpenAI 无疑展现了新一代 C 端流量入口的潜力。然而流量可以成为管道也可以成为平台,二者的商业价值不可同日而语。
正如 Packy McCormick 在 Attention is All You Need 文章中指出,OpenAI 率先吸引了Attention with Intelligence。ChatGPT 现在已经和亿级用户建立了直接的联系,为服务用户提供了较低的边际成本,且可以以递减的边际成本获得需求驱动的多方网络效应,成为了一个最有潜力的超级 C 端聚合平台。Plugin 的交互界面和传统 API 完全不同,对 C 端可能产生更深远的影响,今天暂不展开。
同时 Google 仍然不容小觑,最近 Bard 将底层模型替换成 PaLM 后,能力大幅提升。当前 Bard 和 ChatGPT 相比,仍然很 Nerdy。但是我们预期,以 Google 的技术深度和各类 10 亿量级用户的 C 端产品,它充分具备打造新一代以 LLM 为基础的新一代 C 端聚合平台的潜力。
相比之下,Anthropic 的 Claude 被认为具备 ChatGPT 同等水平的智能,其平台潜力却远没有被激发出来。
并不是所有 LLM 追随者都能成功复刻 GPT 模型+ChatGPT+Plugin 路径的。正如前文分析 OpenAI 今天的成就是技术+产品+ GTM 综合的结果。即使如中国般相对独立的区域市场,也需要真正领先的技术能力与战略能力结合才能成功 。
结论
大模型生态在未来人工智能发展中具有很大的价值和潜力。然而,大模型仍需要克服一系列技术和道德挑战,以确保更广泛、平衡和可持续的利用。
总之,未来人工智能大模型生态将在自然语言处理、计算机视觉、语音识别与合成以及跨模态应用等领域继续发挥其巨大潜力。同时,大型模型生态还面临着诸多挑战,包括数据安全与隐私、泛化能力与可解释性、能源消耗与环境影响等。只有充分认识并应对这些挑战,我们才能在大型模型生态中创造更多的价值,为人类社会带来更多的福祉。
报告原文链接(欢迎在原文Comments讨论):https://www.notion.so/OpenAI-b1ccaaeecd77433cbdf4f10855878146?pvs=4
参考资料:
大模型(大型语言模型,LLMs)是当下AI和NLP研究与产业中最重要的方向之一。
本文将对当下的主流大模型进行总结。(截止2023.03.04)
本文将参数规模在1B以上的模型视为大模型。
模型一览
| Model | 作者 | Size | 类型 | 开源? |
|---|---|---|---|---|
| LLaMa | Meta AI | 7B-65B | Decoder | open |
| OPT | Meta AI | 125M-175B | Decoder | open |
| T5 | 220M-11B | Encoder-Decoder | open | |
| mT5 | 235M-13B | Encoder-Decoder | open | |
| UL2 | 20B | Encoder-Decoder | open | |
| PaLM | 540B | Decoder | no | |
| LaMDA | 2B-137B | Decoder | no | |
| FLAN-T5 | 同T5 | Encoder-Decoder | open | |
| FLAN-UL2 | 同U2 | Encoder-Decoder | open | |
| FLAN-PaLM | 同PaLM | Decoder | no | |
| FLAN | 同LaMDA | Decoder | no | |
| BLOOM | BigScience | 176B | Decoder | open |
| GPT-Neo | EleutherAI | 125M-2.7B | Decoder | open |
| GPT-NeoX | EleutherAI | 20B | Decoder | open |
| GPT3 | OpenAI | 175B (davinci) | Decoder | no |
| InstructGPT | OpenAI | 1.3B | Decoder | no |
Meta/Facebook AI
- LLaMA: Open and Efficient Foundation Language Models
https://arxiv.org/pdf/2302.13971v1.pdfarxiv.org/pdf/2302.13971v1.pdf
https://github.com/facebookresearch/llamagithub.com/facebookresearch/llama
- OPT: Open Pre-trained Transformer Language Models
https://arxiv.org/pdf/2205.01068.pdfarxiv.org/pdf/2205.01068.pdf
- T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
https://arxiv.org/pdf/1910.10683.pdfarxiv.org/pdf/1910.10683.pdf
注:T5的代码和模型同样open source在hugging face平台。
google (Google AI)huggingface.co/google?sort_models=likes#models
- mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer
https://arxiv.org/pdf/2010.11934.pdfarxiv.org/pdf/2010.11934.pdf
https://huggingface.co/models?search=mt5huggingface.co/models?search=mt5
- UL2 and Flan-UL2: Unifying Language Learning Paradigms
https://arxiv.org/pdf/2205.05131.pdfarxiv.org/pdf/2205.05131.pdf
blog:
https://www.yitay.net/blog/flan-ul2-20bwww.yitay.net/blog/flan-ul2-20b
model:
google/ul2 · Hugging Facehuggingface.co/google/ul2
google/flan-ul2 · Hugging Facehuggingface.co/google/flan-ul2
- PaLM: Scaling Language Modeling with Pathways
https://arxiv.org/pdf/2204.02311.pdfarxiv.org/pdf/2204.02311.pdf
- LaMDA: Language Models for Dialog Applications
https://arxiv.org/pdf/2201.08239.pdfarxiv.org/pdf/2201.08239.pdf
blog:
https://blog.google/technology/ai/lamda/blog.google/technology/ai/lamda/
- Flan-T5 and Flan-PaLM: Scaling Instruction-Finetuned Language Models
https://arxiv.org/pdf/2210.11416.pdfarxiv.org/pdf/2210.11416.pdf
google/flan-t5-large · Hugging Facehuggingface.co/google/flan-t5-large
- Flan: FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS
https://arxiv.org/pdf/2109.01652.pdfarxiv.org/pdf/2109.01652.pdf
**注释:在谷歌的命名体系中,前缀Flan基本等于该模型经过了instruct-tuning。
BigScience (非盈利兴趣组织)
- BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
https://arxiv.org/pdf/2211.05100.pdfarxiv.org/pdf/2211.05100.pdf
bigscience/bloom · Hugging Facehuggingface.co/bigscience/bloom
EleutherAI
- GPT-NEO
https://github.com/EleutherAI/gpt-neogithub.com/EleutherAI/gpt-neo
- GPT-NeoX
https://arxiv.org/pdf/2204.06745.pdfarxiv.org/pdf/2204.06745.pdf
https://huggingface.co/EleutherAI/gpt-neox-20bhuggingface.co/EleutherAI/gpt-neox-20b
OpenAI
OpenAI的大模型自GPT3起都没有开源,关于OpenAI GPT 系列模型的API参见:
Introducing OpenAI
https://openai.com/blog/introducing-openai
Planning for AGI and Beyond
https://openai.com/blog/planning-for-agi-and-beyond
Generative models
https://openai.com/research/generative-models
Unsurpervised Sentiment Neuron
https://openai.com/research/unsupervised-sentiment-neuron
Improving Language Understanding by Generative Pre-Training https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
Language Models are Unsupervised Multitask Learners https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
Language Models are Few-Shot Learners
https://arxiv.org/abs/2005.14165
OpenAI LP
https://openai.com/blog/openai-lp
Aligning language models to follow instructions
https://openai.com/research/instruction-following
Training Language Models to Follow Instructions with Human Feedback
https://arxiv.org/abs/2203.02155
ChatGPT
https://openai.com/blog/chatgpt
GPT-4 Technical Report
https://cdn.openai.com/papers/gpt-4.pdf
https://openai.com/blog/chatgpt-plugins
Bard
PaLM API
https://blog.google/technology/ai/ai-developers-google-cloud-workspace/
LLaMA: Open and Efficient Foundation Language Models https://arxiv.org/abs/2302.13971
Alpaca: A Strong, Replicable Instruction-Following Model
https://crfm.stanford.edu/2023/03/13/alpaca.html
Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality https://vicuna.lmsys.org/
Compression for AGI - Jack Rae | Stanford MLSys #76
https://www.youtube.com/watch?v=dO4TPJkeaaU&t=247s
AI Today and Vision of the Future (Ilya Sutskever interviewed by NVIDIA's Jensen Huang)
OpenAI Meta-Learning and Self-Play
https://www.youtube.com/watch?v=9EN_HoEk3KY
Minds, brains, and programs
Mastering the game of Go with deep neural networks and tree search https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf
Highly accurate protein structure prediction with AlphaFold https://www.nature.com/articles/s41586-021-03819-2
Improving alignment of dialogue agents via targeted human judgements
https://arxiv.org/pdf/2209.14375.pdf
https://alphacode.deepmind.com/
Aligning language models to follow instructions
https://openai.com/research/instruction-following
Constitutional AI: Harmlessness from AI Feedback https://arxiv.org/pdf/2212.08073.pdf
Evaluating Large Language Models Trained on Code https://arxiv.org/pdf/2107.03374.pdf
GPT-4 Technical Report
https://cdn.openai.com/papers/gpt-4.pdf
OpenAI Triton
https://github.com/openai/triton
BloombergGPT: A Large Language Model for Finance https://arxiv.org/pdf/2303.17564.pdf
https://www.reuters.com/technology/microsoft-talks-invest-10-bln-chatgpt-owner-semafor-2023-01-10/
Technology and wealth inequality
https://blog.samaltman.com/technology-and-wealth-inequality
Introducing Claude
https://www.anthropic.com/index/introducing-claude
Who Owns the Generative AI Platform?
https://a16z.com/2023/01/19/who-owns-the-generative-ai-platform/
