智算中心基础设施高质量建设研究
摘要:智算中心作为新型基础设施,融合了人工智能理论与先进计算架构,为AI应用提供算力、数据和算法服务。其发展得益于算力需求的快速增长,尤其在大模型和生成式AI的推动下,预计到2027年中国智能算力规模将显著增长。政策支持和市场需求的增长为智算中心的建设提供了动力。然而,建设周期长、成本高、技术方案难以匹配以及运维管理效率低等问题,仍是智算中心基础设施建设面临的挑战。为应对这些挑战,本文从弹性化敏捷部署、机柜系统、供配电系统、暖通制冷系统、智能管控系统、防雷接地系统、消防灭火系统和综合布线系统等方面提出高质量建设措施,以提高建设效率和降低运营成本。
关键词:智算中心;基础设施;高质量建设;人工智能;算力需求
一、 智算中心发展分析
1. 智算中心的定义
智算中心是基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,通过算力的生产、聚合、调度和释放,高效支撑数据开放共享、智能生态建设、产业创新聚集,有力促进AI产业化、产业AI化及治理智能化。
2. 智算中心的作用
智算中心作为高性能计算和人工智能的融合体,为科研、商业和工业提供强大的数据处理、分析和智能决策支持,推动技术创新和业务效率提升。除了提供基础的计算和数据处理能力,智算中心的作用还体现在多个方面,如:能够处理复杂的科学模拟和实验数据,加速新药研发、基因测序、气候模拟等科学研究的进程;通过智能化分析和预测,帮助企业优化生产流程,提高产品质量,降低成本,实现产业的智能化升级;在城市管理、交通规划、环境监测等方面提供决策支持,助力构建更加智能、高效的城市生态系统;通过大数据分析和人工智能技术,为数字产品和服务的开发提供动力;能够分析网络安全威胁,预测和防御网络攻击,保障数据和系统的安全;为高校和研究机构提供教学和研究资源,培养下一代的计算科学家和工程师;作为一个多学科交叉的平台,促进了不同领域之间的合作,推动了跨学科研究的发展;通过优化资源配置和提高能源效率,支持环境保护和可持续发展目标的实现。
3. 智算中心发展现状
(1) 智算规模增长迅速
工信部数据显示,截至2023年底,我国在用数据中心机架总规模超过810万标准机架,算力总规模达到了230 EFLOPS,算力总规模居全球第二位。在人工智能席卷各个行业的大趋势下,各行业正加速从业务数字化迈向业务智能化,从感知智能到生成式智能,人工智能算力需求快速增长。大模型和生成式人工智能的发展显著拉动了智能算力的增长,为算力产业带来了更大的发展空间。在适度超前的指导思想下,国家正加大对人工智能算力基础设施的投资。目前,互联网企业、电信运营商以及各级政府均积极投入到智算中心的建设之中。据《2023-2024年中国人工智能计算力发展评估报告》中关于智能算力规模的测算,预计到2027年中国智能算力规模将达1117.4 EFLOPS。
(2) 政策支持力度加大
近年来,中国算力中心行业受到各级政府的高度重视和国家产业政策的重点支持。国家陆续出台了多项政策,为算力中心行业的发展提供了明确、广阔的市场前景,为企业提供了良好的生产经营环境。如 2023 年 10 月,工业和信息化部等六部门印发的《算力基础设施高质量发展行动计划》,对我国的算力、运载力、存力建设和应用赋能做出了目标指引;2024年1月,国家发改委等五部门印发的《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,提出统筹通用算力、智能算力、超级算力的一体化布局,统筹东中西部算力的一体化协同,统筹算力与数据、算法的一体化应用,推动算力与绿色电力的一体化融合,算力发展与安全保障的一体化推进。为促进数字基础设施建设,赋能数字经济发展,上海、深圳、北京、南京、天津等重点城市和地区也结合本地需求制定了相关政策。此外,地方政府还通过发放 “算力券” 等补贴算力建设的方式助力产业发展。
(3) 市场需求持续强劲
在数字经济时代,算力与数据、算法并肩成为最基础的生产要素。随着云计算、大数据技术的迅猛发展,数字化改革的步伐不断加快,数据呈现爆炸性增长,算法的复杂程度也持续攀升。这种趋势直接促使了对算力规模与能力的迫切需求,算力需求正以前所未有的速度爆发式增长,成为推动数字经济持续繁荣的关键力量。据中国信通院统计,在智能算力领域,互联网行业对数据处理和模型训练的需求不断提升,是智能算力需求最大的行业,占智能算力53%的份额。
4. 智算中心发展趋势
(1) 智算引领发展潮流
近两年,AI大模型给算力产业带来了巨大的影响,以GPU为核心的智算逐步成为算力的主要发展方向。工信部等六部门发布的《算力基础设施高质量发展行动计划》明确中国智能算力的占比将在2025年达到35%,年复合增长率在30%以上,这意味着智算中心将引领数据中心建设的潮流。
(2) 多元异构结构转变
未来3~5年,数据中心将向“高算力中心”演进,赋能企业数字化转型。单体数据中心的规模和密度仍将逐步提高,异构算力充分融合成为趋势。智能算力是人工智能应用的基础,传统数据中心仅依靠CPU通用服务器已无法满足机器学习、无人驾驶、工业仿真、人工智能模型训练等新兴应用场景所需的算力。除在数据中心部署更多48核或64核等高核心CPU来应对激增的算力需求外,引入GPU、FPGA、ASIC等异构算力来承担新算力需求已成为必然趋势。
(3)绿色低碳降本增效
伴随人工智能对计算和存储能力要求的不断提升,芯片的功耗正越来越高、发热量也越来越大。为实现算力建设和能源消耗成本间的有效平衡,对算力基础设施进行能耗控制和改良,是从源头上进行节能减排的有效手段。
绿色节能是新时代的重要命题,提高数据中心能效,不仅是企业降本增效的重要手段,也是实现碳中和目标的重要路径。因此,通过模块化设计和部署,通过提升散热效率来降低能耗的液冷数据中心受到市场的关注。此外,提高可再生能源的占比,减少化石能源的使用,有助于降低电力成本,从而间接推动算力的绿色发展。
二、 智算中心基础设施建设面临的挑战
人工智能大模型等新应用、新需求推动智能算力规模高速增长,同时也带来算力紧缺、能耗激增等问题。智算中心基础设施建设在迎来新机遇的同时,也面临诸多挑战。
1. 建设周期长成本高
智算中心基础设施的建设需要经过论证、报建、设计、土建、机电安装、调试等多个阶段,建设周期长达1~2年以上,难以满足行业应用对算力持续高速增长的迫切需求。另外,智算中心属于重资产和资本密集型行业,具有前期投入大、技术迭代快、建设门槛高等特点,相关的建设运营需要消耗巨大的时间成本和资金成本,远远超出了一般企业的承受范围。
2. 传统技术方案难以匹配
随着人工智能服务器等高性能设备的广泛应用,单机架功率密度可达40kW以上,远超过传统数据中心单机架功率密度6kW的功耗水平。这使得数据中心的供电、制冷系统需要全面升级改造,以适应新的算力需求。
3. 运维管理效率偏低
目前数据中心通常存在动力环境基础设施监控和IT设备监控两套独立的监控系统,这种分离的系统架构使得运维人员很难根据IT设备的实际负载情况及时进行系统调优,导致整个数据中心的监控运维管理、能耗调优和故障预警效率偏低。
三、 智算中心基础设施高质量建设
为了解决智算中心基础设施建设中的难题和挑战,提高智算中心建设效率,降低后期运营成本,可以从弹性化敏捷部署、机柜系统、供配电系统、暖通(制冷)系统、智能管控系统、防雷接地系统、消防灭火系统、综合布线系统等几个方面综合考虑智算基础设施的建设。
1. 弹性化敏捷部署
随着技术的不断发展,新的算力技术不断涌现,传统数据中心改造扩容难,无法第一时间升级新一代技术,面临建成即落后的窘境,因此需要构建更加灵活敏捷的算力底座。
模块化、预制化成为一种新的建设模式,通过预先标准化设计,工厂组装、集成、预测试,现场即插即用,实现快速安装、快速交付。产品化、模块化是未来智算中心弹性化部署的主流模式。但仅仅是模块化的建设方式已无法满足需求,未来智算中心要通过智能化手段对供电、制冷、管理系统进行全面技术改造与优化。
2. 机柜系统
机柜是机房用于安装硬件的系统,以便有效地使用空间。网络设备、服务器、配线架等设备都会统一安装到机柜里面。机柜需根据机房整体设施来配置,需要在设计和管理中综合考虑。与传统数据中心不同的是,智算中心更多的采用高功率机柜和液冷机柜。
3. 供配电系统
智算中心的供电模式将持续优化,通过走向一体化、预制化和智能化来满足业务数字化、在线化、零中断的迫切需求。根据技术路线不同,智算中心所用的不间断电源主要有UPS和HVDC两种,交流不间断电源仍是主流供电方案。
为了保证高功率机柜的稳定运行,智算中心采用高功率高密度的供电设备,拥有更大的功率容量和更高的供电效率,支持高性能计算服务器和大规模存储设备的搭载。由于市电供应出现故障和停电时间是不确定的,因此智算中心配置发电设施(中压/低压油机)以备突发断电情况。
4. 暖通(制冷)系统
暖通(制冷)系统是智算中心中负责控制温度和湿度的系统。暖通(制冷)系统包括冷却系统、空调系统和湿度控制设备,为确保机房内的温度和湿度处于适宜的范围,保护设备的正常运行。
从市场发展情况来看,风冷目前依旧是主流的制冷方案,随着间接蒸发冷却技术及全变频氟泵等技术的创新发展及应用普及,其市场规模在不断增长。水冷逐步成为主流的制冷方式,市场占有率仅次于风冷。目前,全球高密集度、高供电密度的超大型数据中心已逐渐引入液冷设备,未来风液融合将成为智算中心高功率密度机柜的主流制冷方案。
自然风冷的数据中心单机柜密度一般只支持8~10kW,冷热通道隔离的微模块加水冷空调水平制冷在机柜功率超过15kW后性价比大幅下降。未来,随着数据中心设备发热量持续增大,散热冷却系统移热速率亟需与产热速率相匹配,否则机柜温度不断升高将导致算力下降并损害设备,因此,液冷散热方案在智算中心散热能力与经济性上的优势逐步凸显。
5. 智能管控系统
智算中心机房智能管控系统对各种智能设备(UPS、蓄电池、空调等),机房环境(温湿度、漏水、烟感等)以及能耗指标(PUE值)实现全方位的统一集中监控管理。机房智能管控系统解决了智算中心可视化的难题。通过管线、能耗可视化等,为机房高效的管理和安全运营提供有力的保证。
智能管控系统中监控管理、运维管理、运营管理、安全管理等通用能力的高效建设、精准应用是未来发展的重点。建设方面,智能管控系统将向基础设施和多个子系统集中化管理发展;应用方面,包括部件级、设备级、链路级、数据中心级的运行状态、关键参数、故障告警等信息将向全局可视化发展,以帮助管理者更直观地掌控智算中心运行状态。
6. 消防灭火系统
智算中心机房中存在大量的电子设备和电缆,由于供电密度增加,火灾风险较高。因此,消防系统的安装和运行至关重要。消防系统包括火灾报警系统、灭火器、自动喷水系统和气体灭火系统等,以提供及时的火灾报警和灭火措施,保护机房和设备的安全。智算中心机房IT系统运行和存储的都是核心数据,由于IT设备及有关的其他设备本身对消防的特殊要求,智算中心主机房灭火系统禁止采用水、泡沫及粉末灭火剂,适宜采用气体消防灭火系统。
7. 综合布线系统
综合布线系统是智算中心的中枢神经,关系着整个网络的运行状态。智算中心相比传统数据中心拥有更高的带宽和更大的承载能力,以满足大规模数据(如大模型训练)传输和处理的需求。
机房线缆布放应采用上走线的方式,应选择开放式线架,宜设置二层走线架。走线架多层敷设时,层间距离应符合规定:通信或网络电缆与电力电缆走线架间、电力电缆走线架间不宜小于0.3m;走线架上部距顶棚、楼板或梁等障碍物不宜小于0.3m;走线架距机架顶部不宜小于0.2m。
四、 结束语
随着智算中心的快速发展,中国正步入一个以数据和人工智能为核心的新时代。智算中心不仅推动了科学研究和技术创新,也为产业升级和城市管理提供了强大的支持。面对建设周期长、成本高和运维管理效率低等挑战,通过实施高质量的基础设施建设策略,有望实现更高效、更绿色、更智能的算力服务。这不仅将促进数字经济的繁荣,也将为实现可持续发展目标做出贡献。智算中心的未来充满无限可能,让我们共同期待并努力实现这一愿景。
参考文献:
[1] 《国家信息化发展报告(2023年)》,国家互联网信息办公室;
[2]《2023-2024年中国人工智能计算力发展评估报告》, 国际数据公司(IDC)、浪潮电子信息产业股份有限公司;
[3]《算力基础设施高质量发展行动计划》https://www.gov.cn/zhengce/zhengceku/202310/content_6907900.htm;
[4]《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》https://www.gov.cn/zhengce/zhengceku/202401/content_6924596.htm;
[5]《算力设施产业图谱研究报告》,开放数据中心标准推进委员会。
作者简介:
李兵,高级工程师,任中电科普天科技股份有限公司数字创新院专业技术总工,主要研究方向为算力中心、智能控制、智慧城市等。