Advertisement

算网融合关键技术和发展路径研究

阅读量:

摘 要

为了整合计算资源与网络资产并实现智能路由调度,在云计算领域已展开系统性研究与实践工作,并致力于构建算网融合的技术框架。当前相关技术和标准仍处于研发阶段,在实际应用中需遵循异构计算资源的统一量化与交易机制这一基础要求。鉴于此,在实际部署中采取边探索边应用的方式较为合理:首先需明确现有云平台、计算端以及网络端的调度机制,并在此基础上逐步推进以下三个阶段的工作——第一阶段着重于关键技术基础研究;第二阶段开展典型应用场景验证;第三阶段则聚焦于整体架构设计与完善功能模块测试——最终目标是形成具有自主知识产权且可扩展性的算网融合体系。

引 言

"东数西算"工程是国家为了推进信息基础设施优化布局、加快数字经济快速发展而制定的战略性举措。这一战略要求"东数西算"实现全国范围内的算力调度支持,在这一目标下就需要建立完善的 calculate-and-sharing 网络架构作为基础支撑系统。具体而言,"calculate-and-sharing" 是指通信网络设施与计算网络设施协同发展所形成的核心技术体系,它通过整合运用计算存储与网络资源,实现了相关业务能够灵活调用网络与计算资源以满足日益增长的需求。在此背景下,探索 calculate-and-sharing 的技术路径与组织形式成为行业内的重点研究方向。

0 1

算网已有架构和调度技术分析

1.1 算网融合是实现云、算、网资源的统一管理和调度

算网融合的根本目的是突破云计算资源独立运行的状态,并推动各资源实现协同工作。从运营主体和服务方式的角度来看,在传统电信运营商的基础上,云服务提供商和第三方企业也参与到这一领域中;这些运营者能够提供灵活多样的网络接入服务,并具备强大的计算感知能力以及综合管理与调度能力,在保障弹性供给的同时允许用户进行定制化配置,并支持按需进行交易性服务;就支撑技术而言,在现有SDN(软件定义网络)、NFV(网络功能虚拟化)技术和VxLAN/EVPN/SR/SRv6等转发层面的基础上进一步优化支持;同时还需要引入新型技术体系包括统一跨平台度量与交换机制、编排与调度方法创新、计算资源动态发布能力以及新型协议如APN6/CFN等的支持。

1.2 云、算侧资源管理与调度架构

随着容器化和微服务为代表的云原生技术不断演进,在算力资源的统一管理和调度方面已引起行业广泛关注。目前应用较为广泛的算力调度系统主要集中在超算与HPC领域,在这一领域内 prominent的有IBM公司的LFS、Altair公司的PBS pro以及开源的Slurm等解决方案。针对大模型训练等智算场景微软在其CycleCloud平台上将超算资源调度与云平台的Kubernetes进行了深度融合 从而为用户提供了专为AI大模型训练设计的独特环境。值得关注的是国内相关企业在这一领域也已展开深入研究 并推出了包括Quick Pool SkyForm等在内的相关产品。Slurm作为其中具有代表性的工具 在科研机构及高校中得到了较为广泛的使用 其架构设计如图1所示(见图1)采用了基于Slurmctld的服务架构以实现对资源和作业的有效监控 各计算节点通过运行Slurmd守护进程实现了远程shell功能(包括等待作业执行作业执行后返回状态以及等待更多作业接续等功能)。

图片

图1 Slurm架构

该系统提供了一个整合所有相关集群的财务数据管理解决方案。该服务允许管理员通过一系列作业管理工具集如Srun等对资源进行监控和调度。该系统还提供了一个基于REST API的安全访问界面,可与主系统实现无缝交互。节点作为资源调度的基本单位,每个节点都拥有独立的计算资源,包括CPU核心、内存空间以及可用GPU加速单元等物理资源。每个作业通常只需要指定所需的计算资源数量即可运行,但若特定需求则可直接指定具体的节点列表并排除不必要的计算资源参与作业运行。

该平台不仅是一个开放源代码项目,在处理大规模集群中的资源分配问题时表现出色(见图2)。 pod 是 Kubernetes 集群中最基本的功能单元,在支持多个 container 的情况下能够高效运行。 node 结点主要负责协调 Kubernetes 资源的分配与管理,并实现本地 pod 的部署运行以及相关的计算、存储和网络资源整合。 在 Kubernetes 系统中, 根据预设策略优化资源利用效率, 调度器会通过其内置的监控机制识别尚未被 node 结点调度到资源上的 pod 任务, 并依据预先设定的一套优化原则进行决策。 该系统默认采用kube-scheduler作为其调度器组件

图片

图2 Kubernetes集群的组件

kube-scheduler在为Pod执行调度决策时会依次实施两个核心步骤:筛选与评分。筛选阶段通过评估候选节点是否满足当前Pod的资源需求来去除不符合条件的选项,并生成可供选择的节点列表;评分阶段则按照预先设定的评分标准对剩余候选节点进行综合考量,并最终确定最适合运行该Pod的节点。决策过程中需综合考量的因素主要包括: pod自身的资源请求量及其在整个系统中的总体负载水平、硬件与软件环境约束条件、 pods之间的亲和性与排斥性要求、数据本地化策略以及各pod之间的相互影响程度等多方面的考量因素

1.3 网侧资源管理与调度架构

VxLAN+EVPN方案是数据中心网络的关键部署方案。VxLAN技术通过将原始数据包封装进UDP数据包中实现这一扩展,在传统的二层网络架构之上实现了向三层网络的延伸。这种技术不仅能够实现数据中心网络的虚拟化配置,并且能在保证其可扩展性的同时显著提升其灵活性。EVPN技术则是基于BGP协议构建的一种以太网虚拟专用网技术,在此架构下能够有效支持跨数据中心的数据传输需求,并且能够解决传统VxLAN在控制平面配置时因缺乏地址解析而导致的学习问题。该方案利用EVPN构建了完整的VxLAN控制平面结构,并实现了跨区域节点间的高效通信机制。

此外,在智能化云计算数据中心中,VxLAN和SDN的联合部署被视为不可或缺的部分。该技术通过分离数据传输层与物理网络层,实现对租户网络与物理网络的有效解耦.VxLAN能够独立于物理架构运行,而SDN则整合了用户对资源管理的控制功能至云管理平台,并与其计算、存储资源协同调度,从而增强了灵活配置的能力(见图3)。

图片

图3 SDN+VxLAN数据中心网络承载方案

1.4 小结

该系统实现了集群内算力任务与容器化资源的有效调度与管理功能,在进行负载均衡分配时综合考虑了CPU使用率、内存占用量以及网络带宽利用率等多个关键指标,并经过不断优化的调度算法设计使得集群节点的整体运行效率得到了显著提升然而,在现有设计中网络资源信息仍存在不足之处缺乏精确的数据支持导致用户获取到的算力服务路径可能并非最优选择这一问题同样体现在DNS域名解析服务器处理终端请求的过程中

在网络侧应用层面上,VxLAN与EVPN结合作为上层协议,有效地解决了虚拟机在数据中心间的迁移问题;然而,由于难以实现下层网络资源信息与其他计算资源协同调度,阻碍了算网深度融合的发展进程,因此为推进计算网络的深度融合,进一步提升计算网络整合能力,则需采用诸如SRv6等更具发展潜力的技术方案;此外,在AI分布式训练以及HPC高性能计算场景中,RDMA技术已被广泛应用至集群内部的数据互联中

0 2

算网融合目标架构和关键技术分析

2.1 整体目标架构相关标准进展

中国主要通信运营商、设备供应商以及硬件供应商等已在CCSA阶段制定了《算力网络总体技术要求》这一规范性文件,并已完成呈报稿的制定工作。该文件主要明确了算力网络的技术架构和相关规范要求,并涉及其整体功能结构及接口规范。其中具体的技术架构要素包括:算力服务规范要求、算网路由配置规范要求、计算资源编排管理规范要求等(如图4所示)。

图片

图4 算力网络总体功能逻辑架构

为了达成对算力与网络的感知、互联与协同调度的目标,并基于逻辑功能进行划分,
该架构体系从逻辑层面分为四个功能模块:算力服务层、算力路由层、算网管理层和算网基础设施层。

a)算力服务层。支持各类算力能力及应用,并接收并转发用户对业务SLA的指令(包括具体的算力需求等参数),确保业务响应的及时性和准确性。

b)算力路由层。基于抽象计算资源的特性识别机制,在系统层面具备感知算力节点资源状态的能力;另一方面,在用户发起请求时带入相关业务参数,则可实现对其业务需求状态的感知能力。综合评估各维度要素包括但不限于用户业务请求特征、网络通信状况以及可用算力节点配置等多因素信息,在动态变化中完成对各类任务的需求分析与最优分配策略制定过程,并能将计算处理结果反向传输至服务层面以形成完整的反馈闭环机制系统。该路由管理架构支持集中式部署模式和分布式运行模式两种主要配置方案。

c)负责计算网架构的设计与规划工作。
在计算网编排管理层中:

  1. 负责对计算节点(VMs)进行精确布署;
  2. 实现对计算节点之间的通信链路进行有效规划;
  3. 实现整体系统性能的最大化配置;
  4. 在网络层面实现节点间的高效通信连接。
    此外:
  5. 在计算网设计中:
    a. 首先完成对计算节点配置参数信息的有效获取;
    b. 然后建立完整的拓扑关系模型;
    c. 最后实现节点间动态负载均衡配置。
  6. 在网络层面:
    a. 首先完成物理层端口地址分配;
    b. 然后建立逻辑层虚拟专用网络(VLAN)划分;
    c. 最后实现跨VLAN端口流量优先级分类策略。

d)计算网基础设施层。为了满足新兴业务对多样化计算资源的需求,在网络信息传输的基础上提供泛在异构计算资源,在网络中实现单核型处理器、多核型处理器以及CPU+GPU+FPGA等多种功能组合。其中作为新型基础设施体系的重要组成部分的算网基础设施层,在支撑计算能力与网络能力协同发展的前提下承担起感知、控制与管理三种关键功能:第一种是感知能力;第二种是控制能力;第三种是管理能力

2.2 支撑算力运营和交易的关键技术

2.2.1 算力资源建模,包含算力度量、算力分级等

设备或平台在支撑特定类型的信息处理过程中展现出的能力被视为其本质基础。基于运行的不同算法以及数据处理类型的变化性特点, 算力可按功能性质可分为逻辑运算能力、并行计算能力和神经网络计算能力等几个主要类别. 算力在统一量化方面的研究对于优化资源调度和提升系统效能具有重要意义. 针对不同类型的运算需求, 各厂商的产品架构存在显著差异, 这就要求建立异构运算能力的统一量化标准. 通过度量函数将各芯片提供的运算能力转换至同一量化基准, 从而实现资源的有效配置.

在制定业务套餐时可供选择的计算能力划分方案具有一定的指导意义;这一划分标准同样可为计算网络平台的设计者提供选型的重要参考依据。从技术支撑的角度来看,在业务场景中对浮点运算的需求是智能应用的重要技术支撑;而具体到当前计算能力规模的不同特征,则可以将其划分为超大型、大型、中型和小型四个等级。

2.2.2 算力交易

跨设备计算领域的算力交易平台是一个依托区块链技术支撑、具备低成本运营特性和高度隐私保护能力的可信服务平台。该平台上的计算资源由多样化的硬件配置构成,在现有条件下包括大型GPU加速型设备以及FPGA集群资源等。此外还整合了中小企业闲置 server 以及个人可支配 computing nodes 等资源形式。该平台支持自动化交易处理功能以及智能资源匹配机制,并提供费用结算服务。当卖家向买家提供服务时 系统会根据用户需求自动识别并调配相应 computing 资源 并生成相应的费用账单;当买家确认服务内容后 平台会即时调配所需资源并完成服务交付 整个过程中相关的 computing 节点会根据实际提供的 computing 资源获得应得报酬。

2.3 支撑算网资源融合管理调度的关键技术

2.3.1 算网转发技术——SRv6

作为一种源路由技术,SRv6基于现有IPv6转发机制,在灵活配置的IPv6扩展头基础上实现网络功能的可编程性。

在SRv6转发过程中,在IPv6报文中需要添加一个扩展头以携带 IPv6 的 Segment List 信息。当报文被转发时,则依据 Segments Left 和 Segment List 字段共同确定 IPv6 目的地地址(IPv6 DA)信息以指导转发路径和行为。非压缩形式的 SRv6 Segment ID 为128位,在其编码结构中主要由三个部分构成:标识节点位置的 LOC 字段(采用 IPv6 前缀格式且具备路由能力)、标识服务及功能的 FUNC 字段(具有本地识别功能)以及 ARG 字段。

在SRv6网络编程规范中,默认情况下,默认节点(Endpoint)通过自定义的行为实例来处理SRv6报文。该规范规定了多种默认的Endpoint Behavior类型。每个默认节点需要创建并配置它们的实例,并分配一个唯一的标识符 SID。这些默认行为可以通过特定的路由协议向网络发送信息。其中最常用的几种包括 END、END.X、END.DT4 和 END.DT6 等。这些典型的行为体负责执行Underlay选路和Overlay业务承载等功能。

2.3.2 算网感知技术——APN6

APN6通过数据平面采用IPv6扩展头,在其中包含如逐跳选项头和段路由头等可编程的空间来传输与应用相关的标识符及其需求至网络中。这些信息被用来指导网络设备提供相应的服务。具体而言,在这种架构下:

  • 相关的信息通常由终端设备或应用程序直接生成,
  • 这些信息又可分为两类:一类是由用户终端设备或应用程序直接生成的主机侧方案,
  • 另一类则是由网络边缘设备生成的网络侧方案。

2.3.3 算网融合路由技术——CFN

为了应对边缘计算系统中的网络信息与算力信息割裂问题,在统一管理与最优资源调度方面面临挑战,在这一背景下,Yizhou Li及其团队提出了Compute-First Networking(CFN)的概念,并已将相关技术框架作为草案提交至IETF,其架构与原理详见图5。

图片

图5 CFN网络拓扑

该网络按照角色划分为三个主要端点:服务器端点、C_FN端点和客户端。C_FN系统通过控制面接口实现算力资源数据在全网范围内的同步共享机制。各服务端点负责将本地的服务状态信息记录至对应的C_FN数据库字段中;这些字段通常包含唯一标识符(如Service ID)、服务IP地址以及相关的计算能力配置等关键参数。随后,在各个C_FN中间处理站之间会将本地存储的服务状态包裹成特定格式的数据包,并向其他C_FN中间站传播这些信息以实现数据共享。基于C_FN路由协议机制,在各中间站之间整合并汇总所有接收到的服务状态信息以构建完整的业务信息路由表单。最后,在数据传输层面实现了客户端对指定Service ID的服务请求进行路径转发功能;当客户端与最近的C_FN中间站发生通信时,在接收相关请求后会综合评估当前网络环境及计算能力配置等因素,并选择合适的服务器端点及其相应的出口通道来处理 incoming的数据包并完成传输任务。”

CFN Egress节点接收到来自不同业务方向的数据流量后,在系统管理界面中依据当前接收到的请求中的唯一标识符确定对应的业务运行环境服务器接口(business node IP),随后对所接收的数据进行打包处理并发送出去。其中外层包裹的数据流采用了统一的传输策略:外层包裹的数据流源端口设置为客户端使用的端口号,并指向目标服务器所在的位置;而内层的数据包裹使用了同样的源端口配置,在到达目的地之前被重新解封以便于后续的操作执行。每一项操作都将在本地层面被记录下来,并通过检查本地存储的信息库来定位到与该标识符关联的服务位置;业务相关方通过检查本地存储的信息库来定位到与该标识符关联的服务位置;当目标服务器响应完成后,在完成相应的操作流程后会立即触发状态更新机制以确保系统的稳定性运行;最终的结果会被反馈给客户端机器以供进一步处理和展示。

0 3

结束语

在国家提出"东数西算"战略背景下

RDMA等关键技术,采用边研究边实践的策略,分3个阶段逐步推进。

第1阶段:单一运营商环境下,在云与网络运营团队之间不涉及算力资源交易及结算流程的情况下进行配置。这种设计在优化了云服务提供方与网络服务提供方之间的协作模式的同时,在操作层面实现了对算力需求者的配置效率提升。具体而言,在整个配置流程中避免了对交易确认环节所需时间的影响因素设置。另外,在算力资源池的设计中限制了运营商自身的可用算力类型数量,并通过减少类型多样性来提高其可管理性

在单一运营商环境下的云服务部署中,在线计算能力运营团队主要负责以下工作:首先,在业内外实现算力运营与交易平台之间的无缝对接;其次,在线开展计算能力交易活动并完成结算环节;此外,在业内外开展计算能力交易活动的同时,将算力资源集合扩展至包括本运营商内部以及外部第三方云供应商提供的计算能力。

第三阶段:多层次协同运营模式。在多个运营主体及多样化的云服务环境之间,在云计算与大数据融合发展的背景下,在不同的业务领域之间,在企业级与个人级用户之间都形成了完整的生态体系和协同机制。这种模式不仅涵盖了传统的大企业之间的协作关系以及云计算平台之间的互操作性要求,在企业级云计算与个人级云计算之间也形成了良好的交互机制。这种多层次协同模式不仅体现了统一的服务理念和开放的技术架构特点,并且能够有效整合各参与方的计算能力资源,在提升整体系统效率的同时也有助于推动行业技术进步和创新应用落地。

全部评论 (0)

还没有任何评论哟~