】 【打 印】 
【 第1页 第2页 第3页 第4页 第5页 】 
从计算中心走向算力网络 人工智能悄然豹变
http://www.CRNTT.com   2022-03-17 10:15:49


 
  从计算中心到算力网络 符合国家“双碳”目标新要求

  在国家碳达峰、碳中和目标下,2021年10月21日,国家发展改革委等部门发布了关于严格能效约束推动重点领域节能降碳的若干意见,将“加强数据中心绿色高质量发展”作为重点任务,鼓励重点行业利用绿色数据中心等新型基础设施实现节能降耗。新建大型、超大型数据中心电能利用效率(PUE)不超过1.3。到2025年,数据中心电能利用效率普遍不超过1.5。这些均对人工智能计算中心提出了进一步提升电能利用率,在不同计算中心间算力协同调度、削峰填谷、精细化能耗控制的要求。

  人工智能计算中心能耗总量较大,且还在不断增长。2019年,马萨诸塞大学阿默斯特分校的研究人员发现,训练一个AI模型的过程中可排放超过626000磅二氧化碳,相当于普通汽车寿命周期排放量的5倍(其中包括汽车本身的制造过程)。统计表明,2018年中国所有数据中心的总用电量达1600亿千瓦时,需消耗5300万吨标准煤,占中国社会总用电量的2.5%。

  工业和信息化部2021年7月印发的《新型数据中心发展三年行动计划(2021- 2023年)》提出,到2023年底,全国数据中心机架规模年均增速将保持在20%左右。按照目前的增长速度推算,2023年中国所有数据中心用电量将达2600亿千瓦时,相当于2.6个三峡大坝的年发电量。

  人工智能计算中心提供人工智能计算范式所需的专用算力,配合少量的通用算力以进行数据预处理和其他任务,从而能够以较低的能耗提供高效的人工智能计算能力。NVIDIA曾测算,在完成相同的人工智能计算任务条件下,人工智能计算中心的计算效率是传统计算中心的10倍,而能耗仅为十分之一。近年来,计算中心不断降低PUE,能耗效率显着提升。原因主要有两点:一是得益于统筹规划,集中建设。在全球各地区政策的引导下,数据中心从较小的传统数据中心向超大规模数据中心转变。二是得益于制冷和供配电等基础设施技术的不断改进。这两个措施有效降低了计算中心的PUE。2013年以前,全国对外服务型数据中心平均PUE在2.5左右,而到2019年底,全国对外服务型数据中心平均PUE近1.6,实现了质的飞跃。

  虽然计算中心有效降低了PUE,但计算业务天然存在波动,仍存在能耗闲置现象。计算中心的业务波动会造成算力利用的波峰和波谷,在波谷时部分计算集群没有任务运行,会发生能耗的闲置。如超大规模预训练模型在人工智能计算中心训练时,将占据计算中心大部分算力,持续数周或数月形成时间周期性的算力波动,在算力波峰时,算力满负荷运行,其他计算任务排队,在算力波谷时则造成能耗闲置。

  因此,人工智能计算中心需要采用算力调度进一步降低业务波峰波谷造成的能耗闲置。多人工智能计算中心协同调度,在A中心算力波峰时,可以将排队任务转移到算力波谷的B中心计算,削峰填谷,多计算中心都可以保持算力高利用率,将计算中心的能耗充分利用起来,从全局和长远角度看,是进一步提升电能利用率,降低碳排放的有效路径。

  国家“双碳”目标对计算中心能耗控制提出了更高的要求,多计算中心间联网感知计算应用所需算力资源,通过任务调度,在能效比的约束下作出算力调配的最优决策,从全局视角看,可以获得计算效率与能耗效率的最优。

  因此,算力网络将成为人工智能计算中心下一步发展的新形态和新范式。人工智能超大规模预训练模型的不断涌现,基于大模型开发行业应用赋能区域经济社会发展的需求激增,人工智能数据集等AI要素进一步流动和共享,以及社会对计算中心不断提升能耗控制水平的要求,促使人工智能计算中心之间开始连接。人工智能计算中心不再是独立的系统,而是形成相互连接的算力网络。地理分布的多个算力中心将连接在一起,为基于基础模型开发新型分布式融合应用提供支撑。算力网络可以感知应用所需算力与存储资源,通过任务调度满足业务需求,多个组织用户在多个计算中心共享算力和数据,满足复杂应用对计算和数据处理的需求。


 【 第1页 第2页 第3页 第4页 第5页 】


扫描二维码访问中评网移动版 】 【打 印扫描二维码访问中评社微信  

 相关新闻: