Advertisement

什么是CPU在人工智能时代的独特优势

阅读量:

关注老石谈芯,一起探究芯片本质

微信的推送规则进行了调整

如果文章对你有用,请在文末点击“在看”,“分享”和“赞”

这样就不会错过老石的每一篇推送了

过去几年间

就 chip 来说吧,在支撑这三大要素方面扮演着至关重要的角色。除了人工智慧专用 chip 之外,在人工智能时代里还有多种通用型芯片得到了专门针对其需求的技术架构优化,并再次焕发出新的活力。

在这篇文章中,我们选择英特尔至强可扩展处理器作为案例,深入探讨云计算与数据中心领域的CPU在人工智能应用中的关键作用.

我整理了本文涉及的至强可扩展处理器相关知识点,并归纳整理成一个思维导图。可通过老石谈芯平台查看该资源链接;高清版本已上传至知识星球:老石谈芯 – 进阶版。

至强可扩展处理器的技术特点

2020年6月,英特尔正式推出了第三代至强可扩展处理器(Xeon Scalable Processor),编号为Cooper Lake。

与前一代产品Cascade Lake相比,Cooper Lake处理器采用了全新的架构设计,在单芯片内集成了一个最大化的28个独立处理器核心。其中每个8路服务器平台最多可配置224个独立的处理器核心以满足复杂计算需求。该处理器系列具备卓越的性能表现,在基础运行频率高达3.1GHz的基础上,单核峰值频率提升至4.3GHz。此外它还配备了增强型的系统内存支持功能,并将UPI(超级通道互联)通道数扩展至6个以进一步优化了数据传输效率。该设计不仅提升了CPU之间的通信带宽和处理能力(达到翻番提升至20.8GT/s),还显著强化了硬件安全性支持、虚拟化处理能力和网络连接性能等数据中心关键功能。

至强可扩展处理器的UPI通道示意图

值得指出的是,Cooper Lake系列处理器专为4通道或8通道服务器设计,采用了第三代至强可扩展处理器技术。与此同时,在针对更常见的1通道与2通道服务器领域,英特尔也已规划推出代号为Ice Lake的新一代处理器,在采用最新的10纳米制造工艺下运行更高效的内核架构——Sunny Cove微架构。

于去年举办的HotChips大会上,英特尔就对Ice Lake与Sunny Cove微架构进行了较为深入的讲解。这部分内容将在未来的文章中进一步阐述并告知更多信息。

Cooper Lake represents the third-generation Intel scalable processors, developed by Intel, designed specifically for artificial intelligence applications. One of these improvements builds upon the foundation established in the previous generation by further enhancing Intel's deep learning acceleration technology, DL-Boost, which has now introduced support for the BF16 instruction set for the first time. A second improvement has incorporated support for Optane Persistent Memory, specifically developed by Intel as its second-generation high-endurance memory technology. Following this, we will delve into why these two enhancements are particularly crucial for advancements in artificial intelligence applications.

英特尔深度学习加速技术

就 DL-Boost而言(即英特尔提出的 Deep Learning Boost 技术),自第二代至强处理器起,英特尔在其架构中集成了一种深度学习加速技术。其关键在于扩展了 AVX-512 向量神经网络指令的功能范围,从而显著提升了对人工智能应用场景的支持能力。

AVX-512是一种提升计算能力的指令集指令集,在计算机处理器中被广泛采用以优化算术运算效率。该指令集通过提高数据存储容量来实现处理更多数据的功能,并借助支持高达512位宽度的数据寄存器,在每个时钟周期内完成多达32次双精度浮点运算以及最多64次单精度浮点运算;同时还能处理8个64位整数和16个32位整数。这种高效的计算能力不仅能够直接应用于AI领域,并且显著提升了相关任务的表现水平。为了进一步增强性能表现,在此基础上引入了DL-Boost技术策略:通过降低数据存储精度的方式显著提升了算法运行效率

简单来说,在深度学习模型中使用低精度数据表示时,并不会显著影响推理结果与计算精度。然而这种优化却能带来显著的技术性能提升。其二是重点则是针对特定类型的应用场景进行优化设计——具体而言,则是针对像这里提到的推理应用场景而言

在深度神经网络应用中使用低精度数据表示已经发展成为一个较为成熟的研究领域。相较于基于32位浮点数的运算方式,在实际应用中我们能够进一步降低数据精度水平,并且仍然能够实现预期的效果。

研究表明,在训练及推理过程中采用16位乘法器与32位累加器对其准确性影响微乎其微;而在推理计算方面采用8位乘法器与32位累加器其准确性影响同样轻微。例如,在许多应用场景中尤其是那些依赖于人类感官能力的应用场景下如观感图像或听觉声音等由于人类感官系统的精确度相对有限因此在大多数情况下这样的微小差异并不会产生显著影响。

然而降低数据精度会对AI芯片的设计和性能带来很多显著的优势。比如,在芯片面积保持不变的情况下,大幅提高运算单元的数量;或者,在性能要求不变的情况下,减少使用的芯片数量;从而有效地降低功耗。此外这种方法还可以减少数据传输的数据量;从而节省带宽;并且提升了吞吐速率。

基于这一理论

相较于8-bit整数而言,在精度方面BF16表现更为出色,并且动态范围显著超出。
尽管与32-bit浮点数相比,在精度上有所牺牲,并且这种牺牲相对较小,
动态范围则相仿,
但所需的比特宽度明显减少。
因此,
在性能、面积效率以及数值表示能力等多个关键指标上,
BF16的表现都非常优异,
这也是为何第三代至强可扩展处理器采用这种数据格式的主要原因。

BF16和浮点数数据格式的对比

相较于前一代CPU搭配32位浮点数的组合,在使用第三代至强可扩展处理器并加入BF16加速后的情况下,在AI推理性能方面提升了它的1.9倍;而在训练性能方面则提升了它的1.93倍。

当然地,在行业内多家企业已经开始采用与推广第三代至强可扩展处理器这一技术方案。例如借助广并端(BF16)技术的支持 阿里云实现了BERT模型推理效率较原始水平显著提升了 且未影响准确性;而Facebook则将英特尔深度学习加速技术应用于其深度学习推荐系统 实现了INT8加速下的推理性能提升达2.8倍 同时BF16加速又使训练性能提升了约1.6倍。

高性能存储技术:傲腾Optane内存

在完成数据计算后, 我们接下来将深入探讨数据的存储问题。芯片设计的一个核心原则在于, 将存储数据的位置设置在与其使用位置附近, 从而实现性能优越且功耗较低的特点 。对于人工智能领域而言, 无论是训练模型还是进行推理运算, 都需要对海量的数据进行处理工作. 这一方面要求具备强大的存储技术支持, 另一方面则必须确保拥有足够的内存带宽以及快速的数据传输速率.

总体来说,在计算机系统里常见的存储器类型可以分为几种主要类型。其中之一是DRAM...具有最佳性能的常见的人工智能存储设备。其数据读写延迟最低,并且具有容量受限但成本高昂的特点。一旦断电则会永久丢失其中所保存的数据内容。

相比之下,在包括机械硬盘和固态硬盘等类型的存储设备中,并非全然无缺。尽管容量充足且价格亲民,并且能够保证数据的持久性;然而其显著的局限在于,在访问速度方面相较于DDR-RAM等技术仍存在明显劣势。

因此,在考虑现有条件下寻求更好的解决方案时,
我们可能会思考是否存在一个既能满足容量要求又经济实用的存储方案。
有没有另一个既能满足容量要求又经济实用的存储方案,
能够同时具备快速的数据读写性能和高持久性呢?
一个可行的选择是使用英特尔的傲腾Optane持久内存技术。
这种技术不仅具有较大的存储容量,
而且能够实现数据的高度持久性,
同时还能提供快速的数据读写性能。
此外,
傲腾Optane内存支持与传统DDR4内存兼容的插槽配置,
并且当与第三代至强可扩展处理器配合使用时,
单路总内存容量可以达到4.5TB,
这远超普通DRAM内存的空间限制。

数据中心存储架构层级

值得注意的是,在当前环境下运行测试发现,在某些特定条件下可能出现问题,请务必采取以下措施:

另外,某些类型的存储设备(如硬盘)是以块为单位进行读写操作,在傲腾持久内存中则采用了基于字节地址的设计模式。这种设计架构使得其数据处理效率得到了显著提升,并且运行性能表现更为出色。

软件框架和生态系统

完整介绍了硬件架构之后

英特尔推出了Analytic Zoo开源平台,并对大数据分析与人工智能应用进行了整合。该平台能够将TensorFlow、Pytorch、OpenVINO等技术集成到一个统一的大数据分析平台中,并被用于分布式训练或预测。此外,在基于SPARK、Ray和Flink等架构下构建的大数据分析流水线上实现了性能提升,并支持方便地部署扩展计算集群以满足需求。经过针对至强处理器的技术优化后的新版本流水线能够充分利用相关计算架构的优势,并且支持灵活配置以适应不同规模的应用需求

Analytics Zoo架构图

美的应用Analytic Zoo构建了工业视觉检测云平台,并显著性地加快了产品缺陷检测速率;同时实现了模型推理端到端速度的16倍提升。

在构建广泛生态系统的过程中,在英特尔硬件产品方面不仅包括至强可扩展处理器以及傲腾持久内存这一类的产品序列,
另外还有基于Xe架构的专用GPU集群,
此外还包括现场可编程芯片FPGA,
并且还有一系列的人工智能通用芯片,
例如由Habana Labs提供的训练与推理专用软件Gaudi与Goya系列等产品

以上改写遵循了所有设定的要求

除此之外,英特尔还推出了oneAPI,用来支持和统一这四大类硬件架构的编程,降低使用不同代码库和编程语言带来的风险,并且无需在性能上做出妥协。

结语

随着数据量的激增而不断增长,在当今社会中数据中心的重要性日益凸显。为了捍卫数据中心领域的领先地位,英特尔必然会在未来 months 中推出其得意之作。对于10纳米数据中心处理器Ice Lake的发布计划,则备受关注。

请访问老石谈芯平台并获取至强处理器知识点的思维导图及与之相关的学习资源汇总。请在老石谈芯后台执行"至强"操作步骤。高清无水印pdf版本已上传至知识星球:老石谈芯 - 进阶版,请下方扫码进入星球查看。

(注:本文仅代表作者个人观点,与任职单位无关。)

深入探讨芯片技术及学习交流的机会,并与老石进行一对一沟通。诚挚邀请您加入知识星球:'老石谈芯-进阶版'这一技术与观点互动交流平台。

往期精选

[

该文章已通过审核并成功上线。
一篇质量上乘的文章已在此发布。
点击下方链接阅读完整内容:
https://mp.weixin.qq.com/s?__biz=MzU5MTgwNjIyMg%3D%3D&chksm=fe2821bec95fa8a8b49dfbb93eb7340d3406f6348309e5f63c426f1157942bc8a1fa2b53251d&idx=1&mid=2247486431&scene=21&sn=9528fe52b83cf40374fb59f2a69477e

在人工智能时代的引领下,Stratix10 NX引领了最先进的人工智能FPGA解决方案?

[

该文章通过微信公众号发布

苹果M1芯片:如何开启一个时代

[

](http://mp.weixin.qq.com/s?__biz=MzU5MTgwNjIyMg%3D%3D&chksm=fe28225bc95fab4de72691cc3377c66b488ca4d583fde20854100533fc8f821928184136473c&idx=1&mid=2247485498&scene=21&sn=04d04d1286244399939510b74f424230#wechat_redirect)

算力至高无上?人工智能芯片的竞争焦点在哪里?

全部评论 (0)

还没有任何评论哟~