行业资讯 | AI大模型下的液冷发展趋势
2024.03.02

液冷是一种用液体来冷却电子设备的散热技术,能够显著提高数据中心散热效率。液冷技术根据冷却液与发热器件的接触方式不同,可以分为间接液冷和直接液冷,其中间接液冷主要包括冷板式液冷,直接液冷包括浸没式液冷和喷淋式液冷。冷板式液冷和浸没式液冷是目前主流的液冷形式,冷板式液冷应用最为广泛,在改造成本、可维护性、兼容性方面具备优势;浸没式液冷冷却效果最好,节能性上优势明显,但可维护性和兼容性一般,多用于高功率密度机柜。


控制当前数据中心温控方式仍以风冷为主,液冷方案中冷板式技术更为普及。2022年数据中心液冷技术的渗透率大概在5%~8%左右,风冷仍然占据90%以上的市场份额。按照服务器出货量口径统计,2023H1我国冷板式液冷服务器比例为90%左右,浸没式液冷渗透率为10%。


数据中心算力与能耗水涨船高,逐渐超出风冷散热阈值,液冷散热已是趋势所向。Chatgpt为代表的生成式人工智能模型拉升算力需求,百亿参数成为模型涌现门槛,算力成为大模型性能提升的关键。大模型带来大算力,大算力带来高功耗,Intel的多款CPU芯片的TDP已突破350W,NVIDIA 的H100系列GPU芯片TDP更是达到700W。这也导致单服务器和单机柜功率均显著上升,已经逐渐超出风冷散热的覆盖范围,液冷散热已成为必然趋势。


PUE限制是现阶段液冷技术发展的核心驱动力。PUE代表数据中心能源使用效率,等于数据中心总耗电/IT设备耗电,比值越接近于1,说明能源越接近全部都用于IT设备负载上。我国数据中心平均PUE为1.49,仍有半数区域的数据中心PUE位于1.5以上。近几年,国家与地方出台了一系列针对新建与老旧数据中心PUE的管控计划,明确要求东、西部枢纽节点数据中心PUE分别控制在1.25、1.2以下。而传统风冷方案的数据中心PUE一般在1.5左右,高于政策要求的范围;液冷方案能够有效降低冷却系统的能耗水平,从而将数据中心整体PUE降低到1.05-1.2左右,满足相关的政策要求。


数据中心TCO是液冷技术规模应用的关键因素。数据中心总成本(TCO)包括建设成本(Capex)和运营成本(Opex)。根据奕信通科技在2022年数据中心标准峰会发布的报告进行测算,以华东地区数据中心建设情况为例,现阶段冷板式液冷方案的TCO甚至Capex已经低于风冷,浸没式液冷方案的TCO也将在运行五年左右之后出现低于风冷方案的拐点。但是该测算结果依赖于一定的前提条件:如机柜功率达到30KW、不计算服务器折旧和服务器运营支出、水电费与房租等运营成本按华东地区情况计价、采用集中式大型IDC机房且IT设备在12个月线性上架后实现80%负载率、外界气温对制冷系统的能耗需求较高等。因此在西北部地区、较小型数据中心等场景下液冷技术的经济性尚没有完全体现。但在数据中心发展的大型化、集约化的趋势下,且液冷方案仍存在每年降本5-10%的空间,再考虑到液冷方案能够有效延长服务器使用寿命,未来液冷数据中心TCO的优势将更加明显。


控制数据中心液冷未来市场规模估算:到2025年,中国数据中心液冷市场规模将达到359亿元左右,CAGR达到72.4%;AI数据中心液冷市场规模将达到280亿元左右,CAGR达到71.4%;通用数据中心液冷市场规模将达到79亿元,CAGR达到76.2%。


液冷是一种用液体来冷却电子设备的散热技术。液冷的工作原理是以液体作为冷媒,利用液体的高热容和高热传导性能,通过液体流动将IT设备的内部元器件产生的热量传递到设备外,使IT设备的发热器件得到冷却,以保证IT设备在安全温度范围内运行(本文主要讨论数据中心应用场景下的液冷技术)。根据冷却液与发热器件的接触方式不同,可以分为间接液冷和直接液冷。间接液冷是指服务器热源与冷却液之间没有直接接触的换热过程,以冷板式液冷技术为主。直接液冷是指将发热部件与冷却液直接接触的冷却方式,包括浸没式和喷淋式液冷技术。其中又可以根据冷却液是否会发生液态到气态的转变,将浸没式液冷分为单相浸没式液冷和双相浸没式液冷。当前,冷板式液冷和浸没式液冷为液冷的主要形式。




数据中心PUE管控日趋严格,针对老旧与新建数据中心均出台强力约束措施。国家与地方出台了一系列政策对数据中心能耗管理进行规范,不断强调数据中心绿色高质量发展的重要性。2021年7月,工信部印发《新型数据中心发展三年行动计划(2021-2023年)》,要求到2021年底,新建大型及以上数据中心PUE降低到1.35以下;到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区降低到1.25以下。2022年8月,工信部等七部门印发《信息通信行业绿色低碳发展行动计划(2022-2025年)》,要求到2025年,全国新建大型、超大型数据中心电能利用效率(PUE)降到1.3以下,改建核心机房PUE降到1.5以下。除此之外,地方也出台了一系列数据中心PUE要求相关的政策文件,其中北京针对数据中心的年能源消耗量设立了多层次PUE要求,年能源消耗量越高的数据中心PUE要求越高,此外还针对PUE超过1.4的数据中心实行电价加价措施。




机电部分包括制冷系统、配电系统、机柜系统、布线系统和监控管理系统的购置和安装成本,不考虑IT设备成本。





液冷方案与风冷方案相比:1)其机电部分的Capex可以节省掉冷冻水机组/冷冻水精密空调,减少UPS和开关设备的容量等;2)需要增加密封机箱、冷却液、冷板、热交换器、防滴漏连接器和机架式分液器等液冷设备方面的成本;3)液冷方案下同样外电体量的数据中心内空间利用率更高,能承载更多IT设备,每ITkW(IT设备功率)下的分摊成本更低。根据假设条件测算,风冷、冷板式液冷、浸没式液冷方案的机电部分Capex分别为16000-18000元/ITkW、15000-17000元/ITkW和23000-28000元/ITkW左右。冷板式液冷方案下分摊到每ITkW下的机电部分Capex与风冷方案基本持平甚至更低;浸没式液冷方案所需增加的机电设备较多,分摊下来每ITkW的Capex相比于风冷仍有7000-10000元/ITkW左右的上升。




土建部分主要包括建筑物成本。风冷和液冷方案的土建成本差异主要在于同样体量的数据中心内,液冷方案下建筑所需的建筑面积更小。根据奕信通科技测算,风冷、冷板式液冷、浸没式液冷的土建部分Capex分别为5000元/ITkW,3000元/ITkW和3500元/ITkW左右。




外电和能评部分主要包括获取外电资源,通过能评验收所需付出的成本。与风冷相比,液冷方案的PUE更低更节能,获取外电资源,通过能评验收的难度相对会小很多。根据奕信通科技测算,风冷、冷板式液冷、浸没式液冷的外电和能评部分Capex分别为4000元/ITkW,2000元/ITkW和2000元/ITkW左右。


Opex中占比最高的是电力成本,液冷技术可以有效降低电力成本。数据中心的Opex主要包括电力成本、固定资产折旧、房租、人工费等等,其中电力成本占比最高,达到56.7%(风冷情况下)。




浸没式液冷方案的Opex最具优势。根据奕信通科技测算,风冷方案的Opex为9360-9720元/ITkw/年左右,冷板式液冷方案的Opex为8040-8400元/ITkw/年左右,浸没式液冷方案的Opex是7800-8160元/ITkw/年左右。




现阶段选择冷板式液冷的初始TCO已经低于风冷,浸没式液冷的TCO将在5-6年之后低于风冷。我们根据以上测算结果进行10年期的TCO测算,那么风冷的Capex和Opex分别为26000元/ITkW和9540元/ITkW/年,冷板式液冷的Capex和Opex分别为21000元/ITkW和8220元/ITkW/年,浸没式液冷的Capex和Opex分别为31000元/ITkW和7980元/ITkW/年。根据TCO测算,现阶段冷板式液冷方案的TCO从开始就已经低于风冷方案,浸没式液冷方案也将在5年左右之后出现TCO低于风冷方案的拐点。





液冷能够有效降低服务器部件故障率,延长使用寿命。液体具有比空气更大的比热容,散热能力更强,使得服务器温度更加稳定,CPU和GPU计算部件可以长时间稳定工作在高性能频率状态。此外,浸没式液冷将IT设备浸入封闭的液体环境中,与空气完全隔离,并且不再需要高速风扇进行散热,消除了空气湿度、风扇振动以及灰尘带来的可靠性影响,从而优化了服务器的运行环境,延长了设备的使用寿命。根据阿里云的实验数据,与风冷服务器相比,液冷服务器整体部件故障率下降约53%,其中电源、网卡、风扇、网线等部件的故障率下降超过80%。随着单服务器价值量以及数据中心运营成本的与日俱增,服务器的可靠性与使用寿命显得尤为重要,液冷带来的附加经济价值有望逐步显现。




3.5 解耦交付模式成为未来发展趋势,助力液冷产业规范化发展




目前冷板式液冷方案的交付模式可以分为两类,包括一体化交付与解耦交付两种。一体化交付是指液冷机柜的所有部分,包括机柜和服务器等,都按照厂商自行设定的标准进行集成设计开发,然后再作为一个整体进行交付。而解耦交付则要求液冷机柜与液冷服务器之间遵循用户预先制定的通用接口设计规范,机柜与服务器可以分别由不同厂商负责生产和交付。




4 数据中心液冷未来市场规模估算



根据估算,到2025年,中国数据中心液冷市场规模将达到359亿元左右,CAGR达到72.4%;AI数据中心液冷市场规模将达到280亿元左右,CAGR达到71.4%;通用数据中心液冷市场规模将达到79亿元,CAGR达到76.2%。核心假设如下:




1)假设通用服务器的平均功率为0.7kW。以超聚变FusionServer 2288 V7(2U)作为通用服务器的代表型号,在超聚变服务器功耗计算器中测算得出其满载功率约为0.7kW。




2)假设AI服务器的平均功率为3.8kW,其中AI训练服务器平均功率为8kW,AI推理服务器为2kW。根据产业调研数据,假设AI服务器中训练与推理的数量关系约为3:7,训练服务器中H系列和A系列所占比例约为4:6,推理服务器均为T4系列。以超聚变FusionServer G5500 V6作为AI训练服务器的代表型号,超聚变FusionServer G8600 V7作为AI推理服务器的代表型号,根据超聚变服务器功耗计算器,H系列训练服务器满载功率约为10kW,A系列训练服务器满载功率约为6.8kW,T4系列推理服务器的功率约为2KW。结合以上数量比例关系,可以估算出AI服务器平均功率约为3.8kW。




3)假设通用服务器平均功率每年提升10%,AI训练与推理服务器平均功率未来三年提升30%/20%/15%。根据近几年CPU/GPU TDP的变化趋势,CPU TDP每年提升10%左右,GPU TDP每年提升20%左右,我们假设通用服务器平均功率未来三年保持10%左右的增速,AI训练与推理服务器平均功率未来三年的增速为30%/20%/15%。




4)至2025年,假设通用服务器液冷渗透率由5%提升到20%,AI训练服务器液冷渗透率由70%提升到100%,AI推理服务器液冷渗透率由40%提升至70%。根据产业调研与曙光数创的信息,2022年我国液冷渗透率为5%-8%左右,预计2025-2028年时液冷渗透率能达到30%左右。我们假设通用服务器2022年液冷渗透率为5%,至2025年液冷渗透率上升至20%;AI训练服务器2022年液冷渗透率为70%,至2025年液冷渗透率上升至100%;AI推理服务器2022年液冷渗透率为40%,至2025年液冷渗透率上升至70%;整体液冷渗透率由2022年的8%上升至2025年的25.7%。




5)至2025年,假设浸没式液冷渗透率由10%提升至30%,冷板式液冷渗透率由90%降低至70%。根据IDC《中国半年度液冷服务器市场(2023上半年)跟踪》报告,按照服务器出货量口径统计,2023H1我国冷板式液冷服务器比例为90%左右,浸没式液冷渗透率仅为10%。随着未来浸没式液冷技术逐渐成熟进入加速推广期,我们预计浸没式液冷的渗透率由2022年的10%上升至2025年的30%,冷板式液冷的渗透率由2022年的90%下降至70%。




6)考虑到大部分数据中心液冷厂商的产品只覆盖数据中心液冷基础设施中的制冷系统、机柜系统等核心部分,故估算数据中心液冷市场规模时只考虑数据中心液冷基础设施中制冷系统、机柜系统等核心部分的市场规模,不考虑布线系统、土建、外电、能评等其他配套部分。结合产业调研数据,假设冷板式液冷基础设施的价值量约为10000元/ITkW,浸没式液冷基础设施的价值量约为15000元/ITkW。




7)考虑到未来数据中心液冷市场竞争逐步加剧以及技术逐渐成熟,液冷方案价格将呈逐年下降的趋势;冷板式液冷技术目前更为成熟,未来价格的下降空间相对较小。我们假设冷板式液冷价值量逐年下降5%,浸没式液冷价值量逐年下降10%。




文章节选自:财信证券研究