Advertisement

文献阅读:Disaggregated Data Centers: Challenges and Trade - offs

阅读量:

林 R、Cheng Y 和 Andrade M.D.等.分立式数据中心:挑战与权衡[J].IEEE通信杂志, 卷年期:58(3):58–77.DOI: ¹⁰·₁₁₀₉/MCOM·₀₀₁·₁₉₀₀₆₁₂

林 R 和 Cheng Y 等人(Andrade M.D)共同撰写的文章探讨了分立式数据中心的技术挑战与权衡问题

分散式数据中心:挑战与权衡

e85f052dc120484585856d0f9c96b8f1.png

《Disaggregated Data Centers: Challenges and Trade-offs》是一篇深入分析分解式数据中心(DCs)的学术论文,在系统地探讨其所面临的主要挑战及其权衡关系的基础上阐述了相关理论与实践问题。

引言

  1. 在数据中心中,资源利用效率较低的情况下,由于固定的资源配置模式会导致一定的资源浪费现象,并引起成本上升。
  2. 通过将部分或全部的系统性资源配置进行分解来提升整体效率是一个可行途径;这种技术手段主要包含部分性和完全性两种类型。

资源分解

  1. 主要致力于机架规模下的分层架构研究,在此基础上设计了全光互连线路方案与混合互连线路方案两种不同的网络结构。
  2. 在实际应用中发现硬件变更不会干扰虚拟机运行,并由管理程序负责资源分配与监控工作,在设计时需综合考虑刀片服务器的光纤带宽限制以及可能发生的故障情况。

资源间通信

  1. 网络要求:存储设备与网络接口相关的通信需求较低,在延迟与带宽方面具有一定的容忍度;然而CPU与内存之间的通信需求较为严格,在当前市场条件下仍无法找到合适的解决方案。
  2. 光学传输:在资源密集型通信需求方面具有重要价值的技术体系主要包括IM/DD系统与相干系统两类方案;其中基于VCSELs与集成硅片(SiP)电路技术的光收发器设计被认为是实现这一目标的关键方案;此外该体系还特别关注IM/DD传输系统的性能优化。
  3. 光学交换技术:在处理多资源切片时所面临的容量限制问题使得电子开关类型的交换器面临较大的局限性;相比之下基于光导纤维的分波复用交换器更适合于大规模分布式的动态连接需求;目前研究重点主要集中在支持低延迟切换的慢重构时间类型上。

性能评估

  1. 采用自定义的Python仿真器进行性能评估。其中CPU与内存之间的通信借助光电路交换实现,而其他类型的通信则依靠电子开关完成。
  2. 该仿真器不仅能够模拟多种资源分解级别、先进的光传输技术和灵活的交换机制,并且还能处理各种工作负载情况。
    在分析过程中考虑了各节点间的通信延迟、传输带宽及系统的可靠性指标,并据此计算出虚拟机请求在不同状态下的阻塞概率及系统利用率,进一步分析其带来的经济效益。
  3. 研究表明,在某些特定场景下OI通道成为系统性能的关键瓶颈。优化OI通道带宽能够显著提升系统资源利用率,但必须优于其他场景才能带来更好的性能提升。
    其理想值应在800Gb/s以上。

结论

分解式数据中心有望显著提升资源利用率。然而,在计算资源之间通信能力并非无限这一前提下,在当前光通信技术带宽有限的情况下,“完全分解式”的数据中心架构可能会受到一定的局限性影响。因此,“完全分解式”的数据中心架构可能需要结合更高带宽的短距离光传输技术和更为优化的功能分配方案来实现最大潜力的发挥。

背景

一方面云计算工作负载日益普及 DC运营商因此不得不提升包括计算存储和网络等基础设施的整体规模与此同时在现代数据中心中发现中央处理器(CPUs)与内存的使用效率相对较低这一现象可能源于应用程序对不同类型的资源需求存在多样性与数据中心内部集成服务器所固有的固定资源量之间无法实现充分匹配从而导致系统性能不足并存在所谓的'资源搁浅'现象即当某一类型的核心资源被耗尽即使系统仍有其他类型的关键性资源未被充分利用也无法支持更多的任务执行同样的情况还会发生在服务器发生故障时可能导致整体系统的不可用性

通过资源分解作为避免 DCs 中资源搁浅的可行途径,在对比集成服务器时,在于不同类型的资源实现了相互解耦,在部署新应用程序或服务时能够独立配置;由于各类型资源之间具有高度独立性,则预期这种架构将带来更高的利用率和可靠性;根据不同程度的资源分解情况,则进一步划分为部分解耦型和完全解耦型分布式集群

资源分解

采用不同层次的比例划分来处理DC分解问题,在具体实施上又可分为三个不同的阶段:涵盖单个机架内部的数据处理能力、不同机架之间的集群范围以及多个集群之间的区域覆盖范围。由于距离较近的原因,在机架级规模下实现资源通信具有较高的效率,并能够实现资源间的高效通信并具备较低的时间延迟和较大的传输容量。本文重点研究了单个机架内部的数据分解方案,并针对这一需求,我们提出了两种全新的数据架构方案

架构

如图1和图2所示,在采用机架级完全分解策略的情况下

fd6d557cd69348409ee18d41ae737f45.png

在采用全光互连的情况下

0cf1eea5a91d42cd966e6ea6bbb7b2b9.png

图2所示的第二种架构由机架内的两种互联组成:一种是服务于CPU与内存之间通信的超宽带宽光互连;另一种是用于对性能要求低于上述类型且适合资源通信的电子交换器。为了满足CPU与内存之间的高效数据传输需求,在刀片上设置了两种类型的OInterconnect(OI),即一种是提供高传输速率(>400 Gb/s)的服务型OI(以蓝色标记);另一种是连接至电子交换器的常规OI(例如小型可插拔SFP系列网络适配器)。值得注意的是此类刀片仅能配置常规OI以完成其相关的资源通信任务,并且所有电子交换器端口也需要配置常规OI以实现光-电信号转换功能。

两种架构的核心差异体现在第二种架构中额外引入了常规光接口(OIs)以及电子交换机的配置。相比之下,在第一种架构中设备间的布线相对更为简便——每个资源刀片通常只配备一根光纤以实现连接。然而,在第二种架构中由于来自/去往资源刀片的所有通信操作都必须由单个 OI 进行处理这一特点导致了显著的协调复杂性。(带宽争用问题尤为突出)。例如,在内存刀片上应当给予更高的关注以确保所有超高带宽的 CPU 内存传输不会持续占用 OI 带宽从而避免潜在的内存存储与内存网络接口(NIC)之间的通信被搁置的现象发生。相比之下在混合架构中通过为低带宽资源设计专用连接的方式显著简化了整体的协调过程。(可参考 Mellanox 的 InfiniBand 技术以及基于 RDMA 的远程直接内存访问方案这类成熟的产品实现这一优化策略)

资源管理

本文采用了云计算领域中的一种资源管理技术方案。其中采用的是基于虚拟化技术的资源调度算法。由于该算法具有良好的可扩展性,在实际应用过程中可以显著提高系统的运行效率与稳定性。通过引入这种技术方案后,在保证系统稳定性的前提下还能够有效降低运营成本。同时该方案还支持多种操作系统环境下的无缝迁移功能。另外该方案还具备智能负载均衡的功能可以在工作负载波动较大的情况下提供稳定的性能保障

请注意,在OIX总线上的任何故障都可能影响整个分解式DC中的所有VM服务中断

资源间通信

当前,在分解式DCs领域中普遍存在的一个假设是资源之间的通信容量是无限大的这一前提实际上存在明显局限性

资源间通信的网络要求

在分解后的DC系统中进行架构设计时

另一方面,CPU - 内存通信的要求非常严格。CPU -内存通信所需的总体带宽高度依赖于CPU和内存的性能。它通过CPU的字长、内存时钟速度和CPU****中内存控制器的数量的乘积来计算。 对于时钟速度为 2133 MHz 的第四代双倍数据速率(DDR4)内存,给定一个具有 3 个内存控制器的常见 64 位 CPU 处理器,CPU - 内存通信所需的峰值数据速率约为 400 Gb/s。相应的延迟要求是 < 100 ns。在分解式 DCs 中,CPU 刀片上持有的 CPU 处理器 / 核心越多,CPU 刀片的 OI 所需的聚合带宽就越高。对于当前的商业产品来说,支持这种超高带宽互连极具挑战性。

资源通信的光传输

为了满足资源间的通信关键要求,尤其是CPU与内存之间的通信需求,由于光传输技术能够提供超大带宽及极低延迟的特点,因而被视为唯一可行的技术方案.**光传输技术可依据检测手段分为两大类:**1)强度调制与直接检测(IM/DD)系统;2)相干系统.**然而,在长距离传输方面具有广泛应用的相干系统,其高昂的成本以及复杂的系统架构使得其在短距离应用中的适用性受到限制.另一方面,由于转发器所需的复杂数字信号处理会导致较长延迟,这可能无法满足全功能分解架构下的延迟要求.相比之下,IM/DD具备操作简便的优势,并且能够在分解式架构中实现较高的带宽性能.因此,重点聚焦于用于分解式DCs的IM/DD传输技术.

b4489218b6164408ba1e44569077213c.png

表 1 聚焦展示了短距离光通信系统中最高可达400 Gb/s的技术成果。通过多种先进的调制方案以及创新的复用策略,在接收端实现了高效的信道管理,并结合新型信号处理技术和前向纠错机制(FECs),该系统成功突破了分解式分集器(DCs)中的资源分配限制。在降低传输成本与能源消耗方面追求极致的目标下,采用高数据传输速率成为实现系统优化的关键因素。基于非归零开关键控与部分响应信号电二进制调制方案的应用,在实时传输性能上实现了突破性的进展。四电平脉冲幅度调制技术(PAM4)被广泛认为是实现单通道超百吉比特率传输的关键解决方案之一。这种调制方案不仅能够显著提升系统的带宽利用效率,在波特率管理方面也展现出良好的适应性。

尽管表 1 中列出的最先进的光传输解决方案支持每根光纤高达 800 Gb/s 的数据传输速度。然而,在下一节中进行的性能评估揭示了,在完全资源分解的情况下,在处理 CPU - 内存通信时仍存在不足。

资源间通信的光交换技术

在机架级分解后的DCs中,所有通信活动均通过不同资源刀片之间的互连实现。为了保证系统的高效性,在互连节点上必须具备足够的带宽能力,并且能够维持最低限度的延迟水平。

一个直接的问题在于电子交换机在CPU-内存通信中的适用性尚待验证。现有的技术解决方案(例如InfiniBand)能够有效支持带宽适中的资源通信需求。采用先进设计(如Cisco Nexus 9316D Switch)的电子交换机不仅可提供高达400 Gb/s的数据传输速率(例如Exablaze FastMux),其延迟也控制在50 nanoseconds左右(例如Cisco Nexus 9316D Switch)。这些性能参数似乎完全符合了CPU-内存通信系统的需求标准。然而,在这种应用模式下存在一个潜在问题即扩展性受到限制可能导致大规模多端口通信时出现性能瓶颈。此外由于电子交换机采用了光-电-光(O-E-O)转换模式这必然会导致额外的能量损耗以及信号传播延迟因此在这一领域中光交换技术被认为是更具潜力的一种解决方案值得进一步探索。

光交换技术主要包含两大类:慢切换技术和快切换技术。慢切换技术主要以光电路交换(OCS)为基础实现通信操作,在实际应用中能够提供较大的带宽并保持较低的延迟水平;然而由于其较长的切换时间(通常在毫秒到秒之间),这种技术更适合应用于那些对长期稳定性和高带宽要求较高的通信场景如存储 - 存储通信或存储 - 计算通信等场合。
相比之下快切换技术则主要采用光分组交换(OPS)或光突发交换(OBS)两种方式实现快速通信操作其切换时间显著缩短至纳秒到微秒范围之内这样的特性使其非常适合用于对低延迟要求较高的场景如CPU - 内存通信或内存 - 内存通信等。
然而受限于当前技术条件下缺乏有效的光存储器支持导致基于光分组交换的技术难以大规模部署为此我们重点研究并支持能够在分解式数据中心环境中实现稳定运行的慢切换技术方案。

性能评估

在本节中采用了一个基于Python的专用模拟器来进行性能评估

集成型服务器(IS)在机架内部配置了 32 套 server blades。每套 server blade 包含十六核 CPU 核心、64GB 内存以及 1024GB 的存储空间。

第2部分采用部分分解法(PD),包含32个计算节点(每个计算节点拥有16个核心单元)及相应的内存支持,并且该系统还包含16个存储节点(每个存储节点配备2048GB的存储容量)。

通过完全分解技术(FD),部署了16组CPU blade servers(CPS),每块CPS包含32个逻辑核心;配置了16组内存blade nodes(MNs),每个MN提供128GB RAM;部署了16组dedicated storage nodes(SNs),每块SN拥有2048GB的存储容量

在完全分解(FD)场景下,每台资源刀片配备了光接口(OI),以支持基于CPU-Memory通信的数据传输速率分别为400 Gb/s(当前标准)和800 Gb/s(未来预期)。在模拟实验中,默认OI传输过程中的延迟极低,并重点考察容量限制对系统级性能的影响。此外,在FD环境中部署虚拟机(VM)时,默认考虑了两种类型的需求:即基于双内存控制器的传统内存(如DDR3-1600 MHz)与高性能内存(如DDR4-3200 MHz)所需的带宽需求。在此完全分解的情境下,默认采用首次适应算法来处理VM请求。在模拟实验中,默认假设所有VM请求会从OI上获取所需带宽资源。在这种情况下,在资源不足或带宽占用超出预期时会导致请求被阻塞等待处理。为了使基准测试更具代表性,在后续测试中不再受限于OI的最大带宽限制这一约束条件;而在集成服务器场景及部分分解场景下,则无需考虑CPU-Memory之间的通信需求

本文系统性地对比分析了基于分解式的数据中心与传统数据中心所实现的虚拟机(VM)总收益。具体而言,在考察的各种分解式场景中(即处理参数设置为PD和FD的情形),我们详细比较了VM总数与IS场景之间的差异表现,并从运营商视角观察到这种差异带来的整体收益变化情况。进一步依据Google提供的VM价格信息以及各阶段资源使用情况计算收入总量,在这种情况下每个特定场景下的总收益等于所有部署于其中的所有VM所产生的收入之和。最后分析了不同配置条件下的资源消耗特征及其对系统性能的影响程度,并探讨了两种不同的VM请求到达率表现下系统的响应能力差异

d4e1a9c07f4547cfad64e3e69c055be7.png

**图****3 和图 **4展示了 VM 请求阻塞概率与资源利用率的表现

e10063bb55074bd18cf2874667808fee.png

图****5 显示出不同工作负载下传统数据中心与具备充足带宽的分解式数据中心之间的经济效益差异。

从数据来看,在存储系统中O/I(读/写)带宽普遍被认为是有限制的因素特别是在处理高密度需求时表现尤为明显

结论

资源分解显著提升了数据中心的整体运营效率。然而,并非所有最高先进技术研发都能充分满足完全分解数据环境下的需求。为了进一步发挥完全分解数据中心的优势,则需要推动光通信技术的进步。具体而言,在现有基础上需采用更高带宽的光传输技术(包括多芯光纤、空分复用与波分复用的技术组合),并配合更快切换机制下的光交换技术(如基于光分组交换与光突发交换的方法)。此外,在技术创新层面还需深入研究最佳资源配置策略与潜在的能量优化方法(包括绿色节能等)以全面提升该类数据中心的表现水平及其可持续运营能力

全部评论 (0)

还没有任何评论哟~