数据中心单相浸没液冷规模化应用关键技术研究
目录
0 引言
1 数据中心能源效率发展趋势
图1
图2
2 液冷技术的演进
3 高可靠单相全浸没液冷系统架构研究
图3
图4
图5
4 IT设备兼容性研究
图6
5 单相浸没液冷支持芯片能力演进分析
图7
图8
6 结束语
摘要
从全生命周期视角出发,在双碳战略框架下推动绿色计算技术的发展至关重要
关键词: 数据中心; 单相浸没液冷; 可靠性; 冷却液
0 引言
数字时代,庞大的生产生活离不开计算力支撑体系。绿色低碳的目标是人类共同追求之一;我国已明确提出"双碳"目标;应对气候变化的态度积极明确;行动坚决有力。在"双碳"指引下,降低计算能耗是促进绿色计算的关键。发展"绿色计算"需要整体来看:降低数据中心冷却能耗与IT设备散热能耗,并提升电能使用效率是数据中心实现绿色发展的重要方向。从数据中心和IT设备全局出发进行整体分析:详细梳理了不同液冷技术架构的支持等级和能效水平;重点研究了单相浸没液冷系统的可靠性及其未来演进能力。
1 数据中心能源效率发展趋势
行业内普遍采用电源使用效率(Power Usage Effectiveness, PUE)指标来评估数据中心的能源效率。其中,PUE值等于数据中心总能耗与其内部IT设备所消耗能量的比率:
PUE= PTotPIT
(1)
公式(1)中,P Tot 表示数据中心的总能耗;P IT 表示IT设备所耗能量。其中,P Tot 包括以下几个部分:即IT设备消耗的能量(P IT)、冷却系统消耗的能量(P C)、供配电系统的消耗(P_E)以及照明和其他辅助设施所耗能(P_O)等各项之和。根据计算公式可知,PUE值理论上可达到最小值1.当此数值实现时,表示所有的能源供给都直接用于驱动IT设备运行,此时的数据中心在能源利用方面具有极佳的效率.然而,这种理想状态在实际应用中极为困难.因为,一个高效的数据中心不仅需要供电系统正常运转,还需要依靠可靠的冷却系统来维持适宜的工作温度,同时还要配置必要的照明设施及监控设备等.因此,PUE值越接近于1,就意味着该数据中心在能源使用方面越趋近于绿色化运行状态.PUE虽然无法完全反映数据机房的整体效率水平,但它是一个非常重要的指标,能够有效衡量除IT设备之外的数据中心电力消耗情况[1-5].
根据图1的数据展示, Uptime Institute机构在过去近十年里对全球超过数千个数据中心的能量效率(PUE)进行了系统性统计与分析。伴随着冷却技术和数据中心热管理技术的持续发展, PUE值显著下降。然而,在过去几年里, PUE下降的趋势逐渐趋缓。因此, 现在的数据中心领域亟需引入更为先进的冷却与热管理技术以进一步提升能源利用率[6]。
图 1

图1全球数据中心行业的PUE变化趋势
如图2所示的数据显示, typical enterprise data centers are composed of several key components. Among these, IT equipment accounts for the largest proportion of energy consumption. Following this is the cooling systems for IT equipment and other facilities that consume electricity. The remaining portions include power supply and control systems. Over the past two decades, the concept of PUE (Power Utilization Efficiency) has evolved from a simple metric to a more nuanced assessment tool. Although it provides a useful starting point for evaluating data center energy efficiency, its limitations become increasingly apparent when used in isolation. For instance, reducing cooling energy through increased inlet temperatures for servers can lower server power consumption but paradoxically increases their energy usage. To achieve sustainable improvements in data center efficiency, it's essential to adopt a holistic approach that considers the entire system rather than individual components. A significant portion of power in data centers is allocated to cooling semiconductor devices; consequently, pure IT power utilization (TUE) represents the ratio between total power input and IT-related power consumption: TUE = Total Power Input / (Power consumed by IT Equipment). This metric offers a more accurate reflection of an organization's true energy expenditure within its data center infrastructure.
TUE= PTotPp
(2)
在公式(2)中,_P_Tot代表数据中心的总能源消耗;而_P_p则表示经过去电散热量后的IT设备实际用于计算能力的能源消耗。具体而言,在公式(2)中,P_Tot由以下几部分组成:IT设备功耗(...)、冷却系统功耗(...)以及其它相关设施功耗(...)。
图 2

图2典型数据中心能耗构成
2 液冷技术的演进
降低数据中心能耗,在技术和应用层面都显示出传统风冷技术已显不足的情况下,在这种背景下液冷技术成为未来的发展趋势。数据中心采用液冷技术指的是使用具有较高比热容液体作为热量传输介质以满足服务器等IT设备散热需求的一种冷却方式。这种方法是一种先进的节能冷却方案主要面向于高密度热量排放环境下的应用情况。在高密度热量排放的情境下如何有效地带走大量热量是一个需要综合考虑各种限制条件并据此进行具体设计的关键问题。由于液体比空气具有显著更高的比热值这使得其在传热效率方面更具优势同时也降低了传热过程中的能耗消耗程度基于此特性采用液冷技术对服务器内部高密度芯片组进行冷却能够实现更为节能高效的操作状态
从芯片应用的角度来看,当前大数据、云计算以及人工智能等技术呈现出日新月异的发展态势,对大功率处理器的需求也在急剧攀升。这一趋势直接催生了数据中心大规模部署高密度的高功率服务器机柜,为其提供的算力需求奠定了基础条件。对于大型数据中心而言,高密度 server机柜对节能性的作用更为突出,采用液冷方案不仅能够有效降低整体能耗,还能节省大量电费开支。从最初的房间级精密空调技术发展到现在应用的机柜级微模块辅助换热技术,再到逐渐普及的冷板式液冷系统,乃至如今成熟的全浸没式液冷方案,数据中心冷却技术的演进表明:冷却介质越靠近芯片设备核心位置,整体液冷系统的效能就越佳[8-13]
该中心能够准确评估其实际算力上的用电效率参数TUE值。参考表1的数据,在基于PUE值为1.5的标准风冷数据中心中实施板级液冷技术后,其计算得出的PUE值降至1.25;而采用全浸没式液冷后,则进一步降至1.00。从PUE值比较可以看出,在与传统风冷相比时,板级液冷降低了约16.67%,而全浸没式液冷则降到了27.33%。同样地,在ITUE指标上进行比较时发现:板级液冷相比传统风 cold降低了约5%,而全浸没式液 冷则下降了约 10%;从 TUE 值对比来看,则是板级液 冷降低了约 20.83%,全浸没式冷却则比传统风 冷减少了约 34.6%。这些数据表明,在节能降 耗方面采取浸没式冷却技术已取得了显著成效,并 将这一趋势推广至更广泛的数据中心运营中
表****1****不同冷却技术能效对比
| 能效指标 | 风冷 | 板级液冷 | 全浸没液冷 |
|---|---|---|---|
| PUE | 1.5 | 1.25 | 1.09 |
| 对比风冷(%) | / | -16.67 | -27.33 |
| ITUE | 1.111 | 1.056 | 1.0 |
| 对比风冷(%) | / | -5.0 | -10.0 |
| TUE | 1.667 | 1.316 | 1.09 |
| 对比风冷(%) | / | -20.83 | -34.6 |
新窗口打开**|下载CSV**
3 高可靠单相全浸没液冷系统架构研究
单相全浸没式液冷系统是一种新型的高效节能型数据中心冷却方案。该技术主要采用特定的冷却介质,在完全淹没IT装备的情况下实现热能的有效转移。在此过程中,通过循环往复的方式将散热量传递给外部环境。从整个数据中心至具体IT装备的制冷架构来看,在不使用冷水机组或末端空调的情况下,并且内部也没有服务器风扇配置的情况下,则使得系统的整体架构最为简单。该系统主要由四个组成部分构成:包括冷却介质、IT装备以及机房系统和室外散热装置等
图 3

图3单相浸没液冷系统技术架构
在实际大规模部署中,应重点关注系统的冗余等级设置,而数据中心追求高能效的基础条件则是确保其具备高可靠性与高可用性这两个关键特性。从安全性和稳定性以及可持续发展角度来看,数据机房的安全保障级别相较于节能性能更为重要,依据《数据中心设计规范》GB 50174-2017的规定,机房使用性质主要依据其所在行业领域的重要性来划分,其中最重要的衡量标准是基础设施故障可能造成的网络信息中断或重要数据丢失对企业和社会造成的损失或影响程度。当符合以下任意一种情况时,机房应被认定为A级:电子信息系统发生重大经济损失中断;造成公共场所秩序严重混乱中断的情况发生时则属于A级机房范畴。对于采用液冷系统的电子信息设备而言,其液冷系统必须避免出现单一故障或单一事件以确保不会影响设备运行状态;支持此类设备运行所需的液冷系统组件(包括主液冷系统及其辅助设施如热源、配电供电及自动化控制系统等)均应具备可移除或可测试的能力以保证维护操作不会导致供冷中断或供冷不足从而影响设备运行状况这一功能可通过系统的冗余配置得以实现.在维护期间机房整体性能可能会有所下降.为了满足A级机房对系统的性能要求相关 supporting 设施如配电与自控系统等也必须配备冗余配置以确保任意组件发生故障时不会导致供冷中断或供能不足从而保护关键设备不受影响.当供电中断时制冷系统也会随之断电油机将在2分钟内恢复送电完成整个制冷过程这一过程通常会伴随一定的间歇性供冷设施配置但如果没有这样的配备就容易导致制冷过程出现间歇性失灵进而影响部分关键设备的工作状态.因此为了保障电力供应中断或其他潜在问题发生时的关键设备仍能正常运行须配备持续供电的状态以维持正常制冷运行
A级机房的液冷系统配置应符合下列规定:
(1)满足B级机房的全部要求;
(2)为支持电子信息系统设备提供液冷设施时, 应该设置冗余配置, 以确保在任意组件损坏或进行检修期间, 系统不会中断正常运作;
配备支持电子信息设备的液冷设施的供配电系统、自控系统和输配路径时,应配置冗余机制,以确保任何一个组件发生故障或需要进行维护时,都不会影响到电子信息设备的正常运行
(4)A级机房的液冷系统应为不间断供冷设施;
当数据中心进行分阶段布置时,必须采取技术手段防止新增设备及相关管道对现有电子信息设备造成干扰
传统的板级液冷系统由冷板散热部件和分水器构成一个单一回路系统(如图4所示),其特征在于只有一个单一的分配线路可能存在潜在的单一故障点
图 4

图4板级液冷系统架构
单一完全淹没式的液冷技术架构具备支撑高冗余等级设计的能力,并能够满足A类机房数据中心的需求。具体系统的架构细节请参见图5所示。
图 5

图5高可靠浸没液冷数据中心架构
其中,冷却塔主要负责将系统中的液体热量散发至外部环境,通常安装在外围区域,其出水温度受周边环境温度影响,一般范围控制在5~32 ℃之间。冷却液分配装置(Coolant Distribution Units,CDU)则负责在不同电子设备之间分配冷却液流量,具备二次侧流量分配功能以及过滤和监测液体状态的能力。该装置专门处理机柜内部直接进行液冷的散热部分,其物理结构为机柜式的CDU装置(通常位于机柜外部,并需搭配二次管路)。通过外部热交换器(如冷却塔)与CDU系统连接的一次侧循环设计,实现了对设备的有效降温。对于全浸没式液冷系统而言,其核心功能是对流体进行连续循环以带走热量,而图5中绿色箭头标识一次侧进水端口,黄色箭头则标识一次侧回水端口。此外,二次循环系统负责将冷却剂输送至并联于全液冷机柜内的各种冷却元件。
单相浸没液冷技术相较于其他同类产品,在实际大规模部署过程中更容易进行在线维护操作,并且相比其他方案更为简便易行,在通用型云计算及云数据中心领域具有广泛适用性。单相浸没式液冷数据中心的核心优势在于能够兼备高能效和高可靠性这两个关键特性,在线数据处理能力达到国家工业和信息化部相关标准A级水平,并且完全符合大规模应用环境下的稳定运行需求。
4 IT 设备兼容性研究
浸没式液冷系统的核心要素在于将带电运行状态下的完整服务器完全淹没于冷却介质中。其中作为换热介质使用的冷却液必须具备强大的换热能力、良好的绝缘性能以及高度稳定性。这种介电性质 liquids 一般情况下不会溶解于水基介质中(或难溶),从而最大程度上保障了其良好的绝缘特性不易遭到破坏。此外该系统还特别关注环境影响及操作人员健康方面的影响即在部件选型阶段所选用浸没于液体中的元器件必须与其使用的冷却液实现兼容性和可靠性验证这样才能充分保证整个系统的元器件与冷却介质之间的良好兼容性参考文献14
综合上述分析,在浸没式液冷领域中广泛应用的冷却剂主要分为碳氢与有机硅化合物(以油计)以及碳氟化合物系列(图6所示)。
图 6

图6浸没式液冷冷却液分类
市场上种类繁多的绝缘液体存在。考虑到这些液体在材料兼容性及可靠性方面的关键差异性特征,在实际应用中往往需要一套科学的筛选与评估体系以满足业务需求。通过查看冷却液材料的技术规格书可以看出,在此过程中涉及诸多技术参数。根据不同的应用场景进行参数调整将直接影响最终效果。标准化定义对大规模应用具有重要意义。
在浸没液冷环境下,所有浸没在液体中的材料与冷却液接触,可能发生两种情况:一种是材料从液体中吸收物质;另一种是材料中的可溶性组分从基质中解体析出。其最显著的表现是材料的质量和体积的变化趋势,即当吸收大于析出时,质量与体积会增加;反之则减少。实现IT设备各组件在冷却液环境下的稳定运行,是大规模应用的技术基础研究,其中碳氟类冷却液具有优异的化学惰性和极强的相容性特征。相比之下,碳氢类冷却液相容性较弱,因此应在引入新型材料之前制定相容性测试规范,以快速评估新旧材料之间的兼容关系。该测试项目已成为评估新材料兼容性的必选项别,通过测试结果能够迅速判定其能否被现有冷却介质所溶解并稳定存在。
此外还有一种功能兼容性设计技术例如IT设备中的常见光模块它主要用于实现光电信号的转换过程当这种传统光模块直接放置于液冷环境中时冷却液会迅速浸润进入光学元件的传输介质从而产生不可预测的反射折射现象导致该类光模块无法正常运行于液冷环境下
所有数据中心机房的硬件组件都是专为风冷设计定制的,目前并未提供专门针对浸没式液冷系统的版本。当服务器被完全浸没在冷却液中时,除了通信介质由空气变为液体所带来的阻抗变化以及多次反射现象外,暴露于冷却液中的设备组件会表现出与空气中不同的信号完整性参数,从而引发系统运行状态发生显著变化甚至无法正常运转。为了使服务器在冷却液环境中正常运行,必须提前开展高速信号兼容技术研究,特别是在当前数据中心信号传输技术从16 Gbit/s向32 Gbit/s乃至未来的112 Gbit/s迈进的过程中,采用PAM4调制的PCIe Gen6标准比使用NRZ调制的PCIe Gen5标准更易受到信道间干扰噪声的影响。面对日益提升的设计要求,必须谨慎选择对信号传输特性影响较小的冷却介质。当前实际应用中普遍采用的工作频率介电常数较低(Dk≤2)的冷却液体。同时,对于IT设备的关键组件(印刷电路板、光纤通信线、高密度钻孔、连接器、线缆等)也需要进行优化设计以减少对系统性能的影响
5 单相浸没液冷支持芯片能力演进分析
对于当前浸没液冷解决方案,由于整体功率密度不高,主要采用被动散热器,被称为主动浸没液冷系统[15].其传热方式主要是混合对流换热:通过在机柜底部引入一定流量的冷却剂,并利用其密度差实现浮升作用[15].如图7所示,浸没式液冷系统的传热类型可大致分为三类
图 7

图7浸没液冷传热类型分类
在实际应用中,传热现象既涉及强制对流又涉及自由对流.为了判断是否可以忽略自由对流的影响,需要建立一套科学的标准.自由对流是指由于温度分布不均导致密度差异进而因重力或其他外力作用引发的流动换热过程.
在传热学领域中运用相似分析法后可知:格拉晓夫数(Gr)反映了浮升力与粘滞力的比例关系;而雷诺数(Re)则代表了惯性力与粘滞力的比例。当需要比较浮升力与惯性力的关系时,则可以通过特征数_Gr_与_Re_的组合来消除粘度的影响。这实际上构成了判断自然对流相对强度的基础依据:如图8所示,在_Gr·Re²_ ≥ 0.01的情况下,自然对流的作用不可忽视;而在_Gr·Re²_ ≥ 10的情形下,则强制对流的作用可视为次要甚至可以忽略不计。至于介于两者之间的范围(即0.1 ≤ Gr·Re² ≤ 10),则被认为是混合对流状态,在此范围内应同时考虑两种传热方式的影响。
GrRe2= βgβΔTL3v2v2u2L2= gβΔTLu2
(3)
公式(3)中,g 代表重力加速度,β 指代物体材料的热膨胀特性,Δ_T_ 则代表散热器表面均温或环境温度,L 是关键尺寸参数,u 是流动速度场的速度矢量的一部分,v 则是流体运动的动力粘滞系数。
图 8

图8判断自热对流影响程度的依据
在计算过程中,我们发现,在当前单相浸没式系统中进行分析发现,在采用被动型浸没式液冷技术时,通过对不同种类冷却液性能的对比实验得出GrRe2>10的结果表明:在该条件下强制对流项的影响可忽略不计。
从传热学理论可知,不同流动形态的自然对流换热规律具有各自不同的关联式,长期以来,利用雷诺准数(Ra,即Pr×Gr)来表征应该采用何种准则来反映自然对流时流动状态的变化,其效果并不十分理想,本文选用格拉准数(Gr)作为判别换热规律转变依据,通过计算发现:在被动浸没液冷技术条件下,当Gr值小于10^9时,液冷工质与热源表面之间的换热过程可被视作垂直平板上发生的自然对流现象;据此采用下式进行努塞尔特数计算(4):
Nu= 0 . 59 Gr14Pr14
(4)
可以得到,
h ∝ β 0 . 25 ρ 0 . 5cp0.25λ0.75μ-0.25
(5)
在公式(5)中,变量_h代表对流传热性能参数,变量β代表物质的膨胀效应参数,变量ρ代表流体物质密度,变量_c_p代表物质的定压容积比热,变量λ代表传热特性参数,变量μ代表流动阻力特性参数
经研究发现,换热系数与工质部分参数之间呈正比关系,涉及(密度、比热容、导热系数、动力粘度以及膨胀系数)等指标,如公式(6)所示:
M 1 =β 0 . 25 ρ 0 . 5cp0.25λ0.75μ-0.25
(6)
接下来用 M 1作为传热优值参数之一进行对比。
在自然对流问题中,Gr系数 Gr 被用作表征流体运动无因次参数,用于量化不同介质间的传热性能差异。公式(7)即为Gr系数的计算表达式
Gr= gβΔTL3v2
(7)
公式(7)中,g 代表重力加速度,β 代表热膨胀系数,ΔT 代表散热器表面均温与环境温度之间的差异,L 代表特征长度,v 用于描述运动粘度
在单相浸没液冷系统中, 采用βv2具有显著优势,在对不同液体换热能力进行性能评估时表现出色: 当运动粘度数值越小且热膨胀系数越高时, 散热性能越佳, 并且能够支持更高性能的芯片设计。在实际应用中需要特别关注芯片的技术演进, 因为随着算力与人工智能技术的发展推动下, 未来型态下的CPU、GPU等专用集成电路(IC)性能将得到显著提升, 然而其功耗将急剧增加, 而油基冷却剂通常呈现出较高的粘度值和较低的热膨胀系数特性, 这种特点已经无法满足高性能计算需求下的功耗增长趋势。因此,在选择合适的冷却介质时必须充分考虑其对系统效能提升的关键作用
6 结束语
在单相浸没液冷技术的规模化应用探索过程中,如何达成长期稳定可靠的运行是关键,硬件设施的兼容性和支撑未来演进的散热系统是其规模化应用的基础性技术要求。冷却液不仅承担热传导功能,并与IT设备系统的各个组件直接接触。对于其规模化应用,通过对其参数进行统一规范设置可实现未来的技术持续优化升级。从系统架构的角度来看,阿里云全浸没液冷技术通过创新实现了无需停机即可完成维护工作,以满足云计算服务对连续性的严格要求;该技术还具备可在线维护的特点,能够实现高能效与高可靠性并存;同时数据中心的整体可用性等级达到国家标准A级,显著提升了系统的稳定性。到目前为止,液冷服务器集群已稳定运行四年多,在液冷环境下IT设备平均故障率较风冷降低了50%以上以上数据充分证明了该关键技术的成功突破及其大规模应用的价值
就目前情况来看,在我国数据中心应用规模化的背景下,完全沉浸式液冷技术这一革命性变革领域的研究仍显浅层次化。此外,在整个产业链体系尚未完善的情况下推广仍面临较大阻力。为此应制定一套完整的行业标准体系,在IT设备运行、液冷材料选择以及维护管理等多个关键环节设定统一的技术规范。
