黄博远:阿里云人工智能平台PAI年度发布
AIGC是我们这个时代的新机遇
今年的云栖大会上,阿里云机器学习平台PAI正式升格为人工智能平台PAI 。在过去的一年多时间里,AI生态经历了翻天覆地的变化,AIGC已然成为继互联网之后推动未来发展的新引擎,带来了前所未有的机遇与挑战。

在当前市场环境中,在AIGC领域主要包含三个方面的内容:预训练AI通用模型、开放生态系统以及应用层面的实践

AI研发新范式和新挑战
在新局势下,整个AI研发进入到新范式 :
- 基于现有的基础模型出发点进行高效构建,并迅速投入实际应用
- AI开发的门槛大幅降低推动了广泛应用,并呈现了显著的增长趋势。

开发新范式优化跟以往从处理数据到0-1搭建模型之间有着显著的不同之处;主要包括三种类型的客户群体。
- 上游:由通用模型提供者及合作方(如阿里科技)参与;
- 中游:基于垂直行业的专业知识提升模型性能,并与生态伙伴协同优化;
- 下游:最终AI应用的主要终端用户群规模不断扩大。
AI产业链的整合与角色定位将是行业发展的大方向,在契合提升社会整体效率需求的同时,将有效促进人工智能服务更加普及。
阿里云人工智能平台PAI全面升级
人工智能平台PAI在4.0版本中进行了全面升级。其底层架构为强大而稳固的基础设施,并包含核心计算集群‘PAI灵骏智算集群’作为支撑平台。该集群专注于大规模分布式计算任务,并承担预训练模型微调及推理服务等重要职责。顶层服务化架构‘Model as a Service’理念,则致力于打造开放高效的应用开发生态。”

PAI助力企业AI创新
人工智能平台PAI将以这三个方面为基础,在助力企业和促进开发者实现AI创新方面展开工作,具体包括开发效率、计算 efficiency以及业务 efficiency。
提升开发效率:人,最宝贵的资源
AI工程化领域的人才既稀缺又成本高昂。具体而言,在整个AI系统中涉及的数据处理、算法设计、系统集成等多个环节都需要使用12种不同的专业工具。这些工程师从数据输入开始,在经过完整的开发流程后实现模型的部署与应用。
阿里云PAI 全生命周期优化的AI平台
阿里云人工智能平台PAI致力于实现从产品设计到部署运维全流程智能化管理。该平台整合了iTAG智能标注技术、DSW交互式建模解决方案、DLC AI训练服务系统以及EAS在线预测模型等核心功能模块,在保障服务质量的同时显著提升了企业级解决方案在各行业的实际应用效能。通过构建覆盖产品开发到运营维护各环节的一体化智能化服务体系, PAI为各类应用场景提供了全方位的技术支撑与服务保障, 有效推动了企业在人工智能领域的创新与发展

PAI-DSW 交互式建模
PAI平台的Notebook服务进行了全方位优化升级。DSW系统具备了全场景AI开发能力,并支持开箱即用的使用体验。平台能够实现异构资源的智能整合与无缝对接,在满足个人用户的同时也能为企业用户提供高效的协作支持。通过这一升级方案,在整个开发流程中都能实现更加高效便捷的操作体验。
我们认识到数据在AI发展中的关键作用。通过整合阿里云存储资源(包括OSS平台、NAS系统以及CPFS技术),PAI实现了对云端存储资源的有效整合。从而为构建大模型提供了便捷的云计算环境

PAI-DLC 分布式训练
在分布式训练环境中构建大型语言模型显得尤为关键。然而,在实际操作中进行细致的管理和优化相当具有挑战性——如何高效配置512张至数千张GPU来进行分布式训练就显得尤为重要,并非易事。特别是在涉及底层复杂软硬件能力时会面临更为复杂的问题:如何实现这些目标往往需要深入的技术积累与经验积累才能妥善应对这些问题并取得理想效果?幸运的是,在采用DLC技术进行分布式计算时能够显著提升效率:支持单机多卡和多机多卡的分布式训练模式;提供灵活而强大的云原生环境配置方案;结合企业级资源管理和自动化优化工具链;从而能够迅速而高效地完成所需模型的构建与培训工作

PAI 模型服务与AI推理
展望未来,在模型服务领域中,推理能力必然成为整个产业关注的核心焦点。我们坚信,目前在我们的平台中已经看到了几十家专注于打造大模型的企业已经成功训练出拥有50B至100B规模的先进模型,这些先进的推理能力将很快在产业中得到广泛应用
该系统提供的在线服务涵盖了PAI EAS模型以及通过Blade技术实现的推理加速功能,为客户提供了一站式解决方案,涵盖了AI部署和推理的全过程。

提升计算效率:机器,如何高效的利用
对于大模型难以回避的一个关键问题是提升机器效率,在当前技术背景下如何使机器在整体产品和服务中得到充分运用成为一个巨大的挑战
PAI灵骏智算服务 - 让大模型训练推理简单、高效
今年我们推出了PAI灵骏计算服务中的Serverless平台产品。该平台通过优化了AI模型的训练与推理速度、降低了使用门槛并提高了稳定性,从而显著提升了整体计算效能。
想象一下,在进行大规模训练时(如拥有1024张或数千张卡片),难以确保系统不出错误。因此我们开发出了一种叫做AI Master的自动容错弹性训练技术方案。该技术不仅能够帮助系统在遇到各种问题时顺利应对,并且对于整个大模型的训练效率带来了显著提升。
开发出一种支持秒级异步训练的高效快照机制... 能够精确统计每个数据在显存、内存以及缓存中的占用情况。硬件或系统出现故障后,在无需进行全局检查点的情况下(即当不再需要整体恢复点时),通过EasyCkpt技术能够快速实现无损失版本的数据恢复。从而帮助企业快速将问题状态恢复为可执行模式。
基于TorchAcc和PAI-Blade的大规模分布式训练及推理过程的软硬件协同优化

1.极致性能:高性能计算、网络、存储支撑的高性能AI集群
旨在满足密集型深度学习应用及大规模语言模型(LLM)/人工智能生成内容(AIGC)训练需求的高性能计算集群架构
2.极致稳定:软硬结合、协同保障超大规模集群超高稳定性
整合了大规模集群处理能力、弹性AI优化调度方案、进度无误的模型保存与恢复机制以及自动化的分布式性能验证体系
3.基于PAI-DLC构建的LLM大模型强化学习训练框架RLHF
支持人工反馈的强化学习 RLHF训练框架,快速开发定制LLM
提升业务效率:自带最佳实践,业务落地提速
阿里云集成了一套最佳实践方案 ,通过PAI平台的技术支持,帮助那些不熟悉人工智能技术及AIGC应用开发的用户快速掌握基础操作。针对那些未曾接触过大模型技术或未进行过AIGC应用开发的用户群体进行专项支持。我们始终致力于将这一核心问题作为提升用户体验的重要方向。
PAI平台不仅包含多种多样的场景化最佳实践方案,并且通过产品化的形式将这些最佳实践提供给客户。企业开发者能够通过接入PAI平台逐步体验模型构建的全过程。
MaaS全链路提效
PAI平台集约化支持了AI工程化的全生命周期管理流程,并实现了对ModelScope/Huggingface等开源社区的深度集成。该平台助力算法开发者、应用开发者以及业务架构师能够专注且高效地推进创新目标的实现。

大模型场景化最佳实践
人工智能平台PAI提供全面覆盖大模型生产流程的端到端最佳实践。

智码实验室-Notebook Galley
Notebook Galley这一板块聚焦于当前流行的使用场景和技术架构,并精心打造了一个供developer探索新技术的专属内容空间。旨在帮助developer迅速掌握技术要点并提升效率。
Notebook Galley上面现在拥有数百个热门AI案例。例如:通义系列、Llama 2以及Stable Diffusion等案例在这上面都能一站式云端服务。为用户提供完整的端到端体验流程。

为AI提供极致性能、全链路工程覆盖、端到端最佳实践的云上服务
PAI团队持续迭代更新,面向AI、大模型、AGI领域做了三个核心工作:
软硬件协同提升了云上基础设施的整体性能,在先进网络架构、存储系统和计算平台的基础上整合了编译优化能力、容错训练能力和快速异步checkpoints技术的支持功能,并打造一个性能卓越且高度可靠的训练环境供研究人员使用
2、提供了端到端涵盖整个AI工程链路的PaaS平台。
3、提供丰富的场景化最佳实践。

人工智能平台PAI未来将致力于这三个领域持续开发云上Serverless产品,并为企业开发者带来更低成本的更高效率的功能体验。我们相信借助这一轮AIGC趋势的浪潮之巅,将推动企业业务实现高质量发展!
本文为阿里云原创内容,未经允许不得转载。
