你的GPT跟ChatGPT可能只差了一个DPU
人不觉得互联网太快速度令人满意,就像不觉得高铁太快速度令人满意,你却只觉得它速度与效率尚有提升空间。
在过去的月里(段落未变),国内各大科技巨头纷纷推出‘中国版 GPT’系统。当下(将'一时间'改为'当下'),这些新系统的发布引发了白热化竞争(将‘诸神混战’改为‘白热化竞争’)。相比而言(而不是仅仅),国内大模型与国际版本仍有一定差距(将‘存在一定差距’改为‘仍有待提升的空间’)。然而(而不是但),对于人工智能的热情已经不可抑制(将‘狂热渴求已经被点燃’改为‘强烈渴望已经被激发’)。越来越多的企业意识到(而不是意识到),错过这一技术机遇(将‘班车 …… 不上则已 …… 不来时就来不及了.’改为‘班车 …… 不上则已 …… 时不来了就失去了先机.’)
01 | 大语言模型的成功与挑战
以 GPT 系列模型为代表的大语言模型成为近来最受关注的技术之一。

图 | OpenAI-ChatGPT
ChatGPT 凭什么落别人那么远?
随着模型规模的扩大(详细说明了各版本模型的参数规模及其增长趋势),AI反馈系统的能力也随之增强(明确指出了系统能力提升的方向)。具体而言,在详细说明了各版本模型的参数规模及其增长趋势后(进一步强调了模型规模对系统性能的影响),我们能够清晰地观察到这一现象(用词更加简洁明了)。这表明参数规模呈指数级增长态势(用词更加专业)。在内存性能方面提出了极高的要求(强调了硬件资源的需求),由于训练过程涉及庞大的数据量(进一步说明了训练需求),同时需要处理海量的数据集(明确指出了数据处理方面的挑战)。此外,在数据中心计算能力方面也提出了更高的要求(进一步细化了技术挑战),并涉及到GPU与CPU之间的高效通信协作(强调了硬件协同工作的复杂性)。其中最为关键的是网络带宽的支持水平(突出指出瓶颈因素)
整体性能直接关系到大模型运行所需的时间以及后续优化和重新训练所需的时间。例如,在使用某大型语言模型时会耗时6个月进行一次完整的Fine-tuning,在一年内通常只能完成两次;而采用其他方案则能在2至3个月内完成一次Fine-tuning,并能在同一年内完成多次优化与重训;这样一来,则会导致AI技术的整体迭代效果呈现出显著差异。

图 | NVIDIA
如今越来越多的企业开始认识到AI可能优化工作流程或为企业提供服务,纷纷开始开发自己的产品.然而如果大家都基于这一通用的大语言模型构建产品,就容易陷入吞吐量和性能瓶颈问题,支撑这样一个通用的大语言模型进行训练所需的成本也非常高

图 | NVIDIA
此外还存在能源供应方面的挑战,在建设大型AI数据中心时所需的能源消耗巨大,并且呈现快速增长态势。数据表明:一个数据中心每年需要消耗相当于2×1^{19}TWh的能量(即约4×1^{9}百万吨标准煤),这仅占全球用电总量的约2\%。这样的数字究竟有多大?举例来说,在三峡水电站建设期间产生的总电量约为1.36×1^{11}亿度电(折合约为相当于该电站两年发电量的一半),而这一数量级将在未来十年内成为支撑全球AI数据中心发展的基础条件之一,并给全球能源发展带来深远影响
02 | 你跟ChatGPT可能只差了一个DPU
在AI领域的大赛中存在两种策略:第一种是通过有限资源进行堆砌构建体系——类似于建造汽车的过程,在这种模式下后进入市场的造车企业往往需要投入更多资金用于市场开拓;第二种则是基于相同的资源基础展开竞争,在此情况下速度快则需提升效率水平——而这正是提高生产效率所追求的目标所在——即实现DPU的最大化。
微软在其官方博客上详细介绍了 OpenAI 的 ChatGPT 所使用的硬件架构基于 NVIDIA 智能网卡与 InfiniBand 200G 网络的支持,并计划在未来对系统进行全面升级以部署 DPU

图 | 微软官博
针对AI模型训练与推理过程中所带来的巨大需求与挑战,NVIDIA近期推出了新一代专用处理器BlueField-3DPU系列,并实现了批量生产.

图 | NVIDIA
NVIDIA创始人兼首席执行官黄仁勋指出,在人工智能时代实现快速发展的前提是具备强大的计算基础。**"蓝光三DPU"技术使这一愿景得以实现,在此过程中将传统的云计算架构创新性地转变为集加速、节能与安全于一体的专用基础设施,在特别适用于对AI生成工作负载要求极高的场景下发挥出色表现。
"
NVIDIA 公司表示, BlueField-3 DPU 是一项专为数据中心量身定制的云服务架构, 融合了硬核级性能, 软件定义型设计和硬件加速能力, 提供每秒 400 Gbps 的网络传输性能, 并涵盖多种关键功能与通信协议。此外, 这款平台还配备了全球领先的存储加速技术, 实现每秒 1.6 Tbps 的超高速数据吞吐量, 同时兼容NVMe-over-Fabric 和 RDMA 等前沿存储技术
构建大语言模型所依赖的硬件架构各具特色。
NVIDIA BlueField-3 DPU 在其功能实现上展现了多维度的优势。首先是加速能力:NVIDIA BlueField-3 DPU 通过强大的硬件资源支持大语言模型的高性能计算需求,并能够处理复杂的计算工作负载;其次,在云规模效率方面:该平台成功解耦了 CPU 核心与计算资源,在提升服务器运行效率的同时显著提升了服务器的运行效率与能源利用率;第三是安全防护体系:安全功能相关的基础设施均部署在 NVIDIA BlueField-3 DPU 上,并基于此构建零信任安全框架;第四是架构设计特点:NVIDIA DOCA 2.0 技术实现了对 NVIDIA BlueField-3 DPU 的全面优化,在提升系统性能的同时实现了高度可编程的架构基础;通过结合 NVIDIA BlueField-3 DPU 实现了全面支持可编程性的数据中心加速平台

图 | NVIDIA
BlueField-3 DPU能够显著增强整个网络性能,并与高性能GPU协同工作时能够支持大型语言模型的规模训练;通过动态优化部署方案能够在不牺牲效率的前提下充分共享计算资源,并灵活应对不同复杂度的任务规模;同时通过提高服务器能效的同时释放更多计算资源,在确保任务完成的基础上实现设备数量的最大化利用率
NVIDIA表示, 这些先进的人工智能技术主要依赖于云端架构, 并通过云服务模式服务于市场. 由此可见, DPU这一技术将在云服务提供商、AI研发机构以及采用AI的企业中得到广泛应用. 据悉,NVIDIA BlueField-3 DPU已在部分国内公有云平台进行了测试,未来将会逐步推广使用.
在GTC 2023大会期间,NVIDIA创始人兼首席执行官黄仁勋先生明确表明,人工智能领域迎来了类似iPhone时代的到来。回想当年苹果公司推出第一代智能手机时的情景,那时的用户还在考虑智能手机仅仅是用于拨打和发送短信的功能。然而,如今我们已经忘记了过去的想法以及那些其他的通讯设备。同样地,在未来的某一天,人工智能技术将会深刻地改变人们的生活方式。
