从MLPerf谈起:如何引领AI加速器的下一波浪潮

作者|Adi Fuchs
翻译|程浩源、沈佳丽
在深度学习的历史进程中,专用化硬件尤其在AlexNet与Transformers这两个具有里程碑意义的时间点上发挥了至关重要的作用。这些架构论文在其摘要部分特别突出了 GPU 的重要性,并具体阐述了它们是如何将基础计算任务分散至多个 GPU 来实现运算效率的显著提升。
为了突出这一点,在计算机视觉领域中,在深度卷积神经网络方面的发展已经取得了重要进展;同样地,在自然语言处理领域中,在LSTM、RNN以及自注意力机制等方面的应用已经形成了较为完善的理论基础。这表明许多算法基础早在其他领域的研究中就已奠定了基础。
然而,在演示如何以合理成本实现大规模计算方面,这些研究者在此领域实现了更进一步的突破。根本原因在于他们深刻理解了人工智能加速的本质:扩展到日用品(Scale-to-Commodity) 。

25年来,路由器、有线和无线的网络速率增长了1000倍
尽管计算机科学家与工程师一直致力于提升单位成本的能力作为其主要追求之一,在某些特殊场景下获得回报将彻底革新游戏规则,并使得过去被视为无法应用于日常生活的物品得以进入普通家庭。
当芯片性能提升了整整一个数量级(即提高了10^2倍),这意味着在短短两个小时中你就能运行一个复杂的模型。相比之下,在过去你需要花费整整一周的时间完成同样的任务(假设你能够掌握所有的并行化技术并且愿意支付高昂的电费)。
过去20年里,互联网带宽随着技术进步提升了1000多个数量级。生活质量得到了显著提升。你还能想象,在过去人们为了完整观看一部电视剧不得不忍受长时间等待的煎熬吗?
为了确保人工智能技术的根本特征,在选择哪些算法时需要特别关注其在日常生活中的适用性和转化路径。
1
AI基准测试的缺陷
近年来,我们见证了MLPerf在其发展进程中不断成长壮大。这是一个专为AI芯片厂商量身打造的标准性评估平台组件。它整合了来自全球顶尖70家科技企业(包括英伟达、谷歌、AMD和英特尔等)以及SambaNova、Cerebras等初创公司和斯坦福、哈佛及伯克利等顶尖学府的合作成果。
MLPerf基准测试涵盖多个AI应用如ResNet50和BERT,并分别对各个功能模块进行评估涵盖了数据处理中心的训练任务、数据处理中心的推理任务以及移动端的推理任务。定期收集各大公司和机构提交的各项测试结果这些结果会被推送至相关的领域或部门中去这样可以让参与者通过MLPerf竞赛来评估自己的表现潜在客户可以根据自身需求选择最适合的AI系统
MLPerf提出一项雄心勃勃的目标宣言:以真实模型为基础、采用公开数据集并借助易懂指标来构建评估标准。通过提供标准化与无偏见的方法来评估性能,并致力于促进人工智能技术的发展。
随着AI硬件的普及程度不断提高,在全面评估当前AI硬件的整体性能水平方面仍存在较大空白。尽管MLPerf在这一领域表现良好,但为了进一步提升这一领域的重要影响力, 我们还需要提出三项具体的改进方案以拓展其广泛认可度
1、规范化
AI加速器的种类繁多,在针对各类用户群体(包括业余爱好者、研究生以及大型企业等)时展现出显著差异性需求;同时,在不同系统层面也呈现多样化特征:从移动设备到工作站再到自动驾驶汽车及HPC/云环境均有其特定的应用场景与性能要求。
此外, 构建加速器的方式多种多样, 给定一个计算域, 你可以充分展现你的创意与能力(当然也需兼顾市场需求与成本因素)。由于AI加速器及系统种类繁多, 单是对比现有技术方案就已经相当有挑战性, 更不用说建立一套公平且无偏见的对比评估体系了。

该机构曾发布一篇名为《AI训练正在超越摩尔定律》的文章( _https://spectrum.ieee.org/ai-training-mlperf_ ),其观点依据MLPerf公布的数据支撑。按照摩尔定律理论,在18个月的时间周期内晶体管密度预计会增加约两倍半。然而根据MLPerf公布的数据结果显示,在这一时间段内人工智能训练的结果实现了十六到二十七倍的增长幅度
于是,马上就有人说,“如果我们比摩尔定律快这么多,那么大部分的性能提升肯定都不是因为我们使用了更好的半导体技术,而是因为采用了更好的加速方法和软件技术。”然而,他们的结论并不可靠。因为他们没有规范化的标准来衡量性能,所以才忽视了硬件对性能优化所做的贡献。

ResNet50训练结果的逐步规范化
让我们深入了解这些数据的含义。以ResNet50数据中心训练为例,在截至2018年时取得的MLPerf基准结果是通过采用640台NVIDIA V100 GPU完成的6.2分钟训练任务;而至2021年这一耗时仅为0.23分钟即可完成同样的任务操作。从纯数字角度来看速度确实提升了约27倍这一显著效果;但这种提升背后的核心原因是采用了规模达3456台TPU v4加速器的技术方案;其数量相比之前增加了约5.4倍的基础性改进工作成果令人瞩目:这表明如果将这一技术标准应用到每个芯片上则实际性能将再提升约5倍
另外,在单个V100 GPU芯片上包含有21.1×10^9个晶体管。尽管谷歌并未详细披露其TPU规格信息,在与TPUv4竞争使用的训练级芯片中(如NVIDIA A100、SambaNova SN10和Graphcore mk2 IPU等),相关设备所包含的晶体管数量大约位于约4×10^9至6×1e9个区间内。
基于现有数据和相似架构的经验来看,我们可以认为TPUv4同样具备如此多数量的晶体管。其单线程浮点运算能力达到了每秒275万亿次,在这种情况下,这意味着我们对TPUv4的晶体管数量进行了估算。从而可以推断出每个晶体管的计算能力提升了约2.6倍左右。
最后, 采用12纳米CMOS工艺制造的芯片是V100。其中一种可能是采用7纳米CMOS工艺制造的芯片(如TPUv4i)。ITRS及其相关学术研究普遍认为, 在相同条件下, 采用7纳米工艺生产的电路运行速度比使用12纳米工艺生产的快1.5倍。综合考虑这些因素后发现, 在预算充足的情况下追求更快或更好的硬件配置并不会显著提高系统的性能水平。
很明显这是一个一阶近似值(first-order approximation)实际上影响系统性能的主要因素包括内存带宽缓存效率通信带宽以及网络拓扑结构等更为复杂的系统通常依赖于更为精密和成熟的软件架构来实现最佳性能简单地增加集成电路上的晶体管数量并不会带来同等程度的性能提升我们必须具备这种思维方式才能深入理解规范化并借助晶体管实现有效的性能优化
为什么靠规范晶体管优化性能如此迫切?原因主要以下四点:
这就是加速器存在的目的。设想有一天晶体管技术无法继续发展如同摩尔定律所言,在硅基技术陷入停滞的情况下我们或许只能依赖硅基技术来实现性能提升。
2、如果缺乏公正的评价标准,则成效不过是冰冷的数字罢了 ,犹如自行车手与跑车手之间的竞赛同样毫无意义。
芯片性能的无限提升并非现实可行,在实际应用中存在技术瓶颈限制
4、将有限资源投入到单一领域以期望获得显著提升的做法并非明智选择,在这一策略下无法实现长期发展目标。唯有专注于加速引擎技术这一核心方向,并将其成功经验成功复制至人工智能领域,在这一关键节点上才能将自身价值定位延展至日用品领域
AlexNet和Transformer开启了单一系统训练复杂模型的大门,并引领了新一轮技术突破。我们应更加关注规范化的性能指标,在此领域已有诸多研究如单位功耗效率或单晶体管效率等取得了显著成果。在单位功耗效率方面已进行过一些探索性研究,但目前这项工作似乎并不具有足够的吸引力。功耗测量工作相对繁琐,在这方面取得突破性进展也不会像打破新的训练时间记录那样引发广泛关注和讨论。
最后,在意识到绝对性能数字的重要性的同时(尽管他们认识到这一点),普通数据科学家是否真正关注如何在处理拥有不可承受数量的处理器的巨型系统时提升执行时间呢?这引发了我们后续内容的探讨。
2. 大众化
MLPerf基准测试涵盖的应用主要源于2012至2018年间发表的学术研究论文中所提及的模型体系;而其中所采用的技术平台——即图形处理器(GPU)——在当时深度学习领域中成为不可替代的重要工具;这些论文中的数据则反映了模型在该平台上运行时的表现数据。
此外,在论文中涉及的底层架构特征、超参数以及架构规模都会基于 GPU 进行相应的设置或安排。此外,在论文中涉及的底层架构特征、超参数以及架构规模都会基于 GPU 进行相应的设置或安排。然而,在实际测试中,系统的性能可能会受到 GPU 缺陷的影响。
在此背景下
请务必不要误解我的意思—— GPU是我们不容忽视的技术。它作为推动现代AI技术发展的核心技术,在没有成熟硬件和软件支持的情况下就不可能见证人工智能技术的快速发展。然而我们也不应仅仅局限于GPU这一途径—— 我们还应深入研究并开发适用于其他架构类型的基础模型以拓宽应用场景。
此外,在追求更加丰富的解决方案时我们也必须避免局限于单一软件方案或单一架构类型 这一选择无疑会影响该领域的发展与瓶颈
3. 泛化
“When a measure is set as a target, it will no longer be an effective measure(当一项指标被设定为目标时,它将不再是有效的衡量标准。)”-Charles Goodhart
MLPerf面临的最后一个难题是难以实现应用泛化。过去的一年里,在考察顶尖AI芯片制造商的评测系统时遇到了诸多问题。我的经验表明,要满足预期性能要求绝非轻而易举。
即便在新构建的Docker镜像中集成了最新版本的所有依赖库,在复现通过MLPerf平台训练出来的模型性能与官方发布结果相媲美这一目标上也难以取得进展
即便在新构建的Docker镜像中集成了最新版本的所有依赖库,在复现通过MLPerf平台训练出来的模型性能与官方发布结果相媲美这一目标上也难以取得进展
最后,在尝试使用另一款结构与规模近乎一致的供应商新模型后,并按照之前的配置进行设置后(这两款模型的层数与规模几乎无异),我发现性能出现了显著下滑——下降幅度达到了大约50%。有hear说,在使用其他供应商提供的某些特定类型模型时也曾遇到过类似情况。

基于基准场景的测试结果表明,在模拟'低速移动目标'时会出现上述不良效果,并非令人意外的结果
目前, MLPerf基准测试持续三年采用统一版本的应用程序, 因此供应商只需在测试过程中向这些应用程序展示一系列看似简单但不具实际意义的性能指标, 就能取得不错的测试成绩. 大多数数据科学家实际上并未深入掌握底层硬件架构、编译器优化和相关软件库的知识, 因此通常不会投入数周时间进行性能优化调优, 也不用编写专门针对编译器决策的手动配置文件.
AI面临的另一个主要技术难题是达成"用户到硬件的表达(user-to-hardware expressiveness)"。AI领域正以惊人的速度快速发展,在线每天发布数百篇最新研究论文。因此我们需要对堆栈进行扩展以支持更多性能优越的应用程序。而非仅关注过去十年的技术应用。
MLPerf应更加注重优化方向,在数据科学领域中,研究者与工程师都需要专注于高性能计算架构的设计与实现这一核心议题;这类架构设计需能够充分结合多核处理器的特点,并行化大量复杂计算任务以提升整体系统效率。
目前大多数AI硬件供应商主要关注的是具体客户需求而非MLPerf应用。若MLPerf不向更通用和广泛接受的方式转变,则很可能面临更多直接竞争对手,并且人们最终也不再将其视为行业的标杆。
2
重新思考硬件加速
在推动人工智能技术进步方面,硬件加速扮演着不可或缺的角色。因此,在深入理解当前技术框架的基础假设、现有理论体系的局限性以及未来可探索的方向具有重要意义的同时,在促进人工智能领域的持续发展方面发挥着不可替代的作用。
跨越创新鸿沟
AI领域以研究为导向,在工业界与学术界之间形成了密切的合作关系。当前生产系统中采用的所有最前沿AI技术均源自这些顶级会议(如NeurIPS、ICML等)的相关研究成果。其中还包括像AlexNet这样的著名模型以及其背后的理论体系。值得注意的是,在这些顶尖研究成果中有一大部分是由知名科技公司如谷歌(Google)、脸书(Facebook)、英伟达(NVIDIA)以及微软(Microsoft)的研究实验室与学术机构共同合作完成的研究成果。

在人工智能应用领域方面,工业界相较于学术界在AI加速器研发方面存在显著差距。尽管国际权威会议如ISCA、MICRO、HPCA以及ASPLOS等每年都定期发布大量关于加速器创新的研究成果,但实际生产环境中所采用的核心架构理念却早在数十年前就已经形成并固定下来。这些基本概念包括内存处理技术、数据流计算方法等,并且还包括其他技术如VLIW架构等。
我们需要收集更多的创意与创新思维,并将其转化为新的产品形态。接纳新创意的过程往往较为缓慢,因为制造芯片需要耗费数年时间,在AI硬件行业竞争异常激烈的背景下, 采用新创意可能需要投入巨大的资源去调整现有的功能模块, 这种做法存在较高的风险性。
但是现在AI加速器领域已经发展完善,并且已经奠定了关键基础。我们清楚如何操作这些技术才能发挥作用。因此供应商们应该尝试一些新观点以推动这一领域的进一步发展。我们坚信这一领域仍然充满潜力!
让AI加速真正作用于AI
现代AI系统激发了人们的兴趣。它不仅让人们开始思考未来无限的可能性,并且也提出了许多涉及哲学、社会学及伦理学的问题。这些领域的专家正在热烈探讨两个关键问题:一是AI能够实现什么功能?二是人工智能的发展路径如何?然而,在展开想象之前,请注意人工智能面临的"硬件与模型"悖论:硬件是构建模型的基础……
因为制造新型硬件的费用高昂,在获取资金进行研发之前必须要有合理的理由。然而,在合理时间内未能投入运行新型硬件用于测试这些模型,则无法证明其价值所在。此外,在缺乏实际性能表现的情况下,在现有技术架构下推动AI创新就会事倍功半。

从AI到深度学习:我们在加速什么?
值得注意的是,在讨论硬件性能时,“AI加速”这一术语有时容易引起误解。“实际上”,我们将其定义为“深度学习加速”,这一术语更为准确,并且结合了基于张量的深度学习算法与传统机器学习方法的协同工作模式,在矩阵乘法引擎上展现出良好的性能表现
值得注意的是,在讨论硬件性能时,“AI加速”这一术语有时容易引起误解。“实际上”,我们将其定义为“深度学习加速”,这一术语更为准确,并且结合了基于张量的深度学习算法与传统机器学习方法的协同工作模式,在矩阵乘法引擎上展现出良好的性能表现
有人可能会表示,“听起来不错啊!我们几乎都广泛了解深度学习这一技术了”,但这也恰恰是关键——我们专注于研究它背后的原因是因为现有的算法库和硬件设备都是专为深度学习而设计的工具。这表明,在当前阶段我们可以深入探索的领域就是深度学习相关的应用开发。这对于加速硬件开发过程是一个重要的考量因素。”
基于协同设计算法与硬件协同的基础上
作为一个非神经科学家, 我明白大脑包含高度复杂的系统,这些系统以非规律的通信模式运作,因此我们难以利用矩阵乘法、固定宽度数据路径以及非线性函数等技术来构建能够模仿其功能的模型.
因此،我们需要探讨这种硬件进化是否使应用硬核协同设计空间中趋近于局部最优?或许,在放弃张量密集型模型后就能实现"AI加速2.0"并迎来AI硬件的新一轮发展潮流。
那时,“AI加速2.0”无需执行矩阵相乘运算,并且能够处理非标准运算模式;同时具备灵活的数据表示能力和多线程处理能力。基于上述特点的加速器(及其异构集成形式)有望在应用领域展现出更大的潜力,并逐步向实现真正的人工智能迈进。
总体而言,值得我们深入探讨的问题包括:是否仅此关注注意力机制就足够了?是否仅仅是卷积神经网络无法涵盖所有可能性?无论答案如何,在当前的研究成果中卷积神经网络确实凝聚了我们的大部分努力与智慧。然而,在这一领域仍可能存在更多的创新空间与应用前景。
(本文经授权后发布,原文:
_https://medium.com/@adi.fu7/ushering-in-the-next-wave-of-ai-acceleration-a7a14a1803d1)_
其他人都在看
欢迎下载体验OneFlow v0.7.0:访问GitHub仓库GitHub - Oneflow-Inc/oneflow,获取最新版本OneFlow——一个以性能为核心的开源深度学习框架。该框架旨在提供高效且灵活的深度学习解决方案,并通过社区驱动持续优化用户体验。

该GitHub存储位置由Oneflow-Inc运营,并提供一个以高性能为中心的详细且开放源代码的深度学习框架。
