去搜搜
头像

AI太“热”,液冷温控的投资机会来了

发布于 2023-06-21 11:12

2023年6月5日,三大运营商发布《电信运营商液冷技术白皮书》(以下简称“《白皮书》”),提出运营商将于2023年开展技术验证;2024年新建数据中心项目10%规模试点应用液冷技术;2025年50%以上数据中心项目应用液冷技术,有望催化液冷技术渗透率的提升。

 

Chatgpt技术的推广进一步催生了AI算力等大功率应用场景的普及,随着算力的持续增长,风冷散热技术面临极大的挑战。液冷技术更能满足高密机柜、芯片级精确制冷需求,数据中心液冷技术将迎来较大的发展空间。曙光、阿里、浪潮等企业纷纷布局。

 

那么,评价数据中心液冷的主要指标有哪些?跟海外企业相比,我国液冷技术和产品优势有哪些,能否享受出海红利?我国液冷市场的长短期趋势是怎样的?哪些液冷相关企业值得关注?


核心看点:

  1. 数据中心评价液冷的主要指标:PUE、系统安全性和可靠性、在线维修维护。

  2. 除了浸没式液冷的冷却液外,液冷没有太高的技术壁垒,产品差异化小。布局早,专利多,技术更新更全,产品安全性可靠性高的企业更具有优势。

  3. 未来液冷产业降低成本主要有两种方式:产品标准化、冷却液的研发突破。

  4. 长期,液冷市场会有比较好的前景。短期,六月业绩盈利惨淡,七八月份刺激政策出台后可能有所回暖。

  5. 数据中心液冷的投资逻辑:技术实现降本增效、深度绑定数据中心重要客户。

 

Q:您能否给我们通俗易懂地讲讲液冷系统?


数据中心的服务器设备的正常运行温度是有限的,一般是5℃-45℃,但是随着CPU等部件性能的提升,功耗也越来越高,这导致温度升高。过高温度使设备的性能降低,就像人发烧了工作效率降低。这时我们就可以通过液冷给设备降温。

 

液冷分为三种:冷板式、喷淋式、浸没式。打个比方,冷板式就像退热贴,喷淋式就像淋浴冲凉,浸没式就像泡冷水澡。沉浸式液冷分为单相液冷、相变液冷。

 

图:冷板式


图:喷淋式

 

图:单相沉浸式液冷


单相浸没式液体冷却系统的冷却液主要通过循环对流传热带走发热设备的热量,后经换热器传递至冷却装置。

 

图:相变沉浸式液冷


相变浸没式液体冷却系统主要依靠冷却液沸腾散热,蒸气上升并在顶部冷凝盘管表面液化后落回,冷凝管内的介质可由外部小型制冷系统或冷却塔等形式提供。

 

在这里必须要了解一个指标,PUE,即电能利用效率,PUE=数据中心总能耗/IT设备能耗。其中,数据中心总能耗除了包含IT设备能耗,还有制冷、配电等系统的能耗,所以其值大于1。越接近1表明非IT设备耗能越少,即能效水平越好

 

冷板式PUE≤1.2,喷淋式PUE≤1.1,浸没式PUE≈1.0X,可以看出浸没式的能效水平最好。

 

Q:目前哪种方式的液冷应用广泛?未来哪种成为主流?

 

根据个人经验,我见到数据中心应用冷板式的液冷最多。因为服务器和液冷环境做了解耦,二者不绑死。这样,无需改变原有服务器的形态,只在服务器上将原来风冷的风扇换成液冷的冷板即可,部署起来更方便。

 

如果是浸没式的液冷,必须用液冷的池子和液冷的服务器;而冷板式,因为是解耦的,用户已经做好了液冷的环境,无论买哪家厂商的服务器,只要是支持液冷的就可以,不挑剔。

 

Q:液冷作为降温的方式,可以给数据中心、储能系统等控制温度。数据中心温控的需求有何特点?它和储能系统的温控特点有哪些异同?数据中心评价液冷主要看哪些指标?

 

数据中心温控需求的特点:规模大、PUE更低、可靠性强、易维护性、可扩展性、高安全性

 

数据中心和储能温控的异同:

同:都是由风冷向液冷方向发展。在原理上相似,包括冷板式和冷却液的原理是相同的。

异:数据中心的温控更加标准化,更多采用模块化设计,部署和扩展起来更加方便。储能领域,因为场景更丰富,客户更看重定制化能力和差异化。此外,相比于数据中心的温度范围要求是5℃-45℃,储能对温控的范围要求更精准,温差范围更小,通常是10℃-30℃,因此门槛更高。

 

数据中心评价液冷的主要指标:PUE、系统的安全性和可靠性、在线维修维护。

 

PUE,这是最重要的指标,前面讲了,不再赘述。

 

系统安全性和可靠性。液冷系统可能会出现漏⽔问题。此外,换热效率、冷板的⼤⼩和尺⼨,以及系统停息的时间和次数也是重要的参考。

 

在线维修维护。⼀些数据中⼼的系统是不能停的,因此需要制冷系统连续运⾏,⽽制冷系统中的运动部件,特别是液冷系统中的⽔泵和阀门系统,会随着长时间运⾏⽽损坏。因此,在线维修、在线更换和在线检测十分重要。

 

Q:您刚才提到,数据中心和储能温控都是从风冷向液冷发展。众所周知,液冷比风冷的效果更好,那么未来数据中心用液冷替代风冷的动力如何?

 

液冷散热是未来趋势。因为同体积液体带走热量是空气的3000倍,导热能力是空气的25倍,同等散热水平时,液冷系统噪音比风冷降低10~15db,且更加省电。

 

液冷代替风冷的驱动因素主要有两个:

 

一是液冷在降低能耗方面优于风冷


二是政策对数据中心的PUE有要求。

 

2021年7月工信部印发《新型数据中心发展三年行动计划(2021-2023年)》,明确“到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒寒冷地区力争降低到1.25以内”

 

2021年11月发改委印发《贯彻落实碳达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高质量发展实施方案》,明确“到2025年,新建大型、超大型数据中心PUE降到1.3以下,国家枢纽节点降至1.25以下。”

 

2022年1月发改委同意启动建设全国一体化算力网络国家枢纽节点的系列复函中明确要求国家算力东、西部枢纽节点数据中心PUE分别控制在1.25、1.2以下

 

Q:目前液冷在我国数据中心的渗透率有多少?我国液冷服务器的增量空间有多大?率先落地在哪些数据中心?

 

目前液冷覆盖率不足10%,到2025年预计可达50%以上,将率先落地于运营商数据中心、国家级超算中心、互联网IDC机房、金融行业机房等。

 

根据《电信运营商液冷技术白皮书》:

 

Q:液冷产业链是怎样的?价值量最高的是哪个环节?有哪些技术壁垒?

 

根据《电信运营商液冷技术白皮书》,液冷产业链不同环节:

上游:主要为产品零部件及液冷设备,包括快速接头、CDU、电磁阀、浸没液冷TANK、manifold、冷却液等组件或产品供应商。部分代表厂商有英维克、3M、云酷、竞鼎、诺亚、广东合一、绿色云图等。

 

中游:主要为液冷服务器、芯片厂商以及液冷集成设施、模块与机柜等。部分代表厂商有华为、中兴、浪潮、曙光、新华三、联想、超聚变、英特尔等。

 

下游:主要包括三家电信运营商,百度、阿里巴巴、腾讯、京东等互联网企业以及信息化行业应用客户,主要在电信信息、互联网、政府、金融、交通和能源等信息化应用。目前,阿里巴巴以单相浸没式液冷为主要发展方向,其他用户以冷板式液冷试点应用居多。

 

价值量最大的环节肯定是中游。像新华三、浪潮等企业因为具有更成熟的市场团队、更庞大的客户群体,受益更大。

 

除了浸没式液冷的冷却液外,液冷并没有太高的技术壁垒,产品差异化小。做得早,设计专利较多,技术更新颖、更全面的企业更具有优势。安全性和可靠性很重要,会影响客户黏性,有的企业的液冷产品一直漏液,客户不满意,就会更换供应商。

 

Q:风冷和液冷的初始单位投资成本是多少?沉浸式液冷很贵,还具有经济性吗?

 

液冷的单位成本,每千瓦风冷/冷板/单相浸没/双相浸没对应6000/10000/12000/15000元。浸没式液冷虽然贵,但是能节约很大面积,几个浸没式液冷机柜400千瓦,相当于传统的80个5千瓦机柜,对于寸土寸金的深圳来说反而是便宜了。


Q:液冷设备的毛利率如何?可以通过什么方式进一步降低TCO(总体拥有成本)?

 

根据我的估计,毛利率大概30%-50%。降低成本主要通过两种方式:从部件维度,将产品标准化,进行批量生产,成本将大幅降低;从研发的角度,如果冷却液的研发新突破也会大幅降低成本,目前氟碳类的冷却液价格高昂,号称茅台。

 

浸没式使用的冷却液有两种:碳氢及有机硅类冷却液、氟碳类冷却液。前者的可靠性低寿命是3-5年;氟碳类冷却液的可靠性高,寿命超过10年。

 

冷板式使用的冷却液主要有:25%乙二醇、25%丙二醇、去离子水。

 

Q:除了降低成本外,液冷产业还需要解决哪些问题?

 

1)液冷产业生态尚不成熟,需要统一的行业标准。目前业内尚无服务器与机柜统一接口规范标准,机柜与服务器深度耦合,各家服务器设备、冷却液、制冷管路、供配电等产品形态各异,不同厂家产品接口不同、不能互相兼容。

 

2)液冷系统架构尚在演进,技术方案存在多元化。当前业内液冷系统架构不同,制冷与供电存在分布式、集中式不同架构;部分厂家服务器已演进为高温服务器,可减配冷水机组,进一步简化冷源架构,促进降本增效。

 

3)液冷系统成本仍较高,落地成本还与风冷有差距。与传统风冷产品比较,液冷仍存在初期投资高、全生命周期成本高等问题影响产品的规模应用与推广。

 

Q:液冷的发展趋势会是怎样的?

 

根据赛迪研究院的报告,模块化液冷产品、余热回收技术等将推动中国液冷数据中心市场持续快速发展。模块化能够使液冷拆卸后安装到另一台服务器上,增加通用性;余热回收技术可以将热导出来供暖,目前实现的还较少。

 

Q:我国液冷厂商能否出海,并在海外具有成本或技术优势?我国的优秀的液冷厂商有哪些?各自竞争优势是什么?

 

据我所知,目前液冷出口国内企业的比较少,一些海外客户在考察、在与国内企业沟通的过程中。我国液冷企业的技术在全球较为领先。

 

如果要出口,我国液冷企业的优势在于产品比较全面,经验比较丰富。有的服务器国外还没有做液冷适配,我们已经做了改造。

 

我们的产品形态很多,包括浸没式、冷板式、集装箱式、通道式、微模块式等,而国外企业覆盖的液冷产品形态比较少。就像给客户上菜,国外企业只提供两三道菜,我们能给客户提供二十道菜,而且是不同菜不同价位,你说国外客户会选择哪一家?这是咱们国内企业的一个优势。

 

国内企业中,曙光的产品比较成熟,产品线比较丰富,落地的案例也比较多。曙光数创是中科曙光下面专门做液冷的子公司,产品的技术比较全面,稳定性比较高。浪潮的优势是市场盘子很大,并且可能从曙光挖了不少人。接液冷订单较多的几家企业有曙光、浪潮,新华三、超聚变等。阿里主要做浸没式液冷,现在普及率不高,因为用得起的客户太少。

 

Q:现在全球经济不太好,但同时GPT大模型的出现刺激算力需求爆发,您觉得接下来国内液冷产品的业绩盈利情况会是怎样的?

 

现在国内服务器市场已经降到冰点通用市场需求下降明显,业绩盈利受到影响,还不如过去前两年疫情时期。上游的提供定制类软件的供应商裁员或倒闭。中游的液冷服务器厂商销售惨淡,这是受下游液冷用户没有购买预算所致,因为政府将预算收紧。

 

我觉得,短期来看,今年七八月份可能会有所回暖,国家会出台一些刺激政策,让政府类、重点行业类在信息化建设方面进行重点投入,类似于去年的贴息贷款,促进市场需求提升。现在服务器市场中,只有AI服务器需求量比较多的。长期来看,液冷市场肯定有比较好的前景,原因在前面讲到。

 

Q:二级市场上液冷的投资逻辑是什么?值得关注的相关公司有哪些?

 

1)液冷经济性打开,成为未来AI集群算力温控唯一方案

 

液冷的初始投资成本高于风冷,但是随着机柜功率的提升,液冷将更有经济性。目前风冷仍然是数据中心的主流方案,但是机柜功率超过15kW,风冷已趋于能力天花板。

 

机柜功率大于15kw后,液冷方案更有性价比,能够突破风冷局限,解决高功耗、高密度散热问题,实现数据中心PUE降低至1.1,并有效提高大型IDC空间利用率。未来AI集群算力密度预计将达到40kw/柜,此时液冷将成为唯一方案。受益于AI带来的算力需求,液冷渗透率有望大幅提升,是本轮AI产业中的具有业绩弹性的环节之一。

 

比如,一个标准的42U机柜通常可以容纳42台至少1U的服务器或21台至少2U的服务器。一个普通CPU服务器功耗约400W,一个机柜功率大约16.8kw。

 

再如,AI大模型训练和推理运算所用的GPU服务器的功率密度将大幅提高,以浪潮NF5468M6为例,包括2颗intel iceLake处理器和8颗NVIDIA A800GPU,功耗约4kw;以英伟达DGXA100服务器为例,其单机最大功率约可以达到6.5kW。

 

未来AI集群算力密度普遍达到40kW/柜,超算场景下液冷成为必然方案。

 

2)主要参与者

 

目前液冷企业的核心壁垒有两个,一是掌握更先进的液冷技术实现降本增效;二是绑定数据中心重要客户,充分受益于AI算力增长带来的业绩弹性。

 

曙光数创:浸没相变液冷产品领导者,深度绑定中科曙光,受益于超算市场发展;中科曙光部署液冷服务器已达数万台,其提出的浸没相变液冷技术,可使PUE最低降至1.04。

高澜股份:最专注的纯液冷企业,冷板式液冷、浸没式液冷和集装箱式液冷,传统业务主要集中在电网、特高压。

英维克:国内精密温控龙头,Xspace冷立方微模块数据中心产品,在数据中心领域和腾讯、秦淮数据等合作。

申菱环境:风冷向液冷转型,深度绑定华为数据中心。

中兴通讯:算网龙头推出ICT液冷一体化方案。

浪潮信息:将“All in 液冷”纳入公司发展战略中,全栈布局液冷,实现服务器全产品线支持冷板式液冷。


本回答由2位专家共同参与

  • 专家头像
    匿名专家
  • 专家头像
    匿名专家