冬季是不是数据中心运营商最喜欢的季节?

毕竟,在低温和寒风的帮助下,大量北方DC可采用自然冷却,南方DC的能耗也大大降低。此时的数据中心PUE低、电费少,成本低,让艾思特网络数据中心运营商们期盼如果全年如此就好了。

AI能效优化——数据中心从“制冷”到“智冷”

如何实现数据中心全年都保持较低的PUE呢?

首先将迁往南北极这一“有效”方法排除——成本不合算,数据中心参数调优是最常使用的手段。当前的数据中心性能优化大多依靠运维专家对(主要是冷冻站的)三五个参数进行调节和试验,需要反复试验,优化效果全凭经验。有没有更稳妥、快捷、准确的调优方法呢?如果之前被问到这个问题,笔者多半会摇头表示,数据中心降耗没有捷径可走。

然而近期一个联合创新的AI节能数据中心——中国移动宁夏数据中心(中卫)的投产却扭转了业内的固有看法。该数据中心采用华为的iCooling@AI能效优化技术(简称“iCooling@AI”)后,在当前冬季自然冷却环境下现场测试总能耗降低3.2%,未来预计可达到5%-8%,每年节电600万度。与传统人工调优相比,iCooling@AI显示出极简运维、极致节能、极致可靠三大特性,帮助数据中心从传统“制冷”走向“智冷”,全年都如在冬天般省心省力地降PUE、省电费。

 

高防服务器,服务器租用,美国高防服务器,香港服务器租用,美国站群服务器,韩国主机,国内服务器租用,菲律宾服务器,新加坡服务器 . 数据中心开启AI能效优化时代,华为又为天下先

华为一贯秉承“自己造的降落伞自己先跳”理念,从不会拿没有实践过的理论和产品推向市场,作为业界首个商用的AI能效优化解决方案的iCooling@AI也是如此。该技术此前就已率先在华为廊坊基地云数据中心、华为东莞云数据中心进行了应用检验,单是华为廊坊基地云数据中心一年节省下来的电费近千万人民币,如此能效优化水平着实让业内瞩目。

说了这么多,数据中心到底是如何利用iCooling@AI能效优化技术降低PUE的?过程可以总结为四步:

首先,数据采集。iCooling@AI对数据中心运维过程中的众多参数进行长时间采集,此技术在华为廊坊云基地的应用中,共采集700多种参数,每5分钟一次,共实时收集了该数据中心连续9个月的运行数据,这一数据采集量是人工调优无法比拟的。

第二,自动治理。iCooling@AI对收集到的海量数据进行脱敏、归一、降噪、去重等治理,采用自动化的数据目录服务,利用数据工具从清洗后的数据中找到决定PUE的关键参数。华为廊坊云基地找到的关键参数有19+2个,远超传统人工调优的3到5个。

第三,模型训练。iCooling@AI利用DNN(深度神经网络)训练出PUE模型,经过训练的PUE模型预测准确率>99.5%,误差<0.005。

第四,推理决策。将生成的数据中心PUE预测模型发布到推理平台中,根据实时的气象条件、IT负载等参数开始推理。iCooling@AI能在1分钟内从140万种组合中寻找出最优参数组合,下发执行并反馈效果。

 

简单总结就是,iCooling@AI基于AI在给定的数据中心气候条件、业务SLA(Service-Level Agreement)等条件下自动推理出最优PUE下的系统参数并执行,实现数据中心能效最优。与传统人工调优对比,iCooling@AI能效优化技术可以戏称为“AI战胜老师傅”的数据中心调优法,因其能发现更多PUE决定参数,总能根据当前给定条件自动推理,给出的最优参数组合有据可依。

用AI降PUE——华为缘何能为业内先?

2018年中国数据中心总用电量为1,608.89亿千瓦时,超过上海市2018年全社会用电量(1,567亿千瓦时),占中国全社会用电量的2.35%(未含港澳台数据)。数据中心产业如此巨大的能耗量早已被重点关注。2019年2月,工信部等三部门出台《关于加强绿色数据中心建设的指导意见》,其中要求到2022年,“数据中心平均能耗基本达到国际先进水平,新建大型、超大型数据中心的PUE(电能使用效率)达到1.4以下”。而自2017年开始,北京、上海、深圳等数据中心密集城市也纷纷出台能耗限制政策控,其中北京市政府规定全市层面禁止新建PUE1.4以上的数据中心,上海市对新建数据中心限制“PUE值严格控制不超过1.3”。

随着从国家到城市各级主管部门类似政策的不断推出,降低能源损耗、实现数据中心绿色发展已经成为数据中心从业方与政府的一致要求。

华为推出的iCooling@AI能效优化技术,依靠AI寻求能效最优的解决方案,不增加硬件投入,利旧服务器资源部署,不仅可用于新建数据中心,更适合现有数据中心利用其进行降本节能,为业界带来了节能降耗新思路。

但随着AI技术的不断进步,其在各行业的应用越来越广泛,致力于AI研发应用的公司也并不鲜见。因此,为什么是华为推出了业界首个商用的数据中心AI能效优化解决方案,而非其他AI公司或数据中心企业?相信看到这,有读者会浮上这样的疑问。让我们一起继续对iCooling@AI进行深挖,看看能否解答疑惑。

对iCooling@AI的四大步骤进行分析可以发现,背后需要四大能力支撑:一是数据采集能力,对数据中心运营熟悉,了解所有需要采集设施参数并采集到;二是数据治理能力,对海量数据进行自动化治理;三是模型训练能力,利用AI训练出PUE模型;四是推理决策能力,根据当前场景参数实时推理出最佳参数组合并下发执行。

而这这四项能力,华为全都拥有并且表现优秀。在数据采集和治理上,华为既是数据中心基础设施供应商又是使用方,具有全球200+的数据中心建设经验和20年运维能力,他们总结给出了数据中心的节能模型、数据治理方案等。iCooling@AI借助华为自研的DCIM系统对数据中心的海量数据进行采集和治理,收集来的一亿条数据中心运行相关数据可在1小时内治理完毕。在模型训练能力和推理能力上,iCooling@AI融合了华为的AI平台及全栈计算能力,借助iMaster NAIE AI平台和昇腾inside的Atlas’集群,实现了精确建模与实时推理。iCooling@AI的训练平台利用华为公有云摆脱物理架构限制,支持分期部署,便于多DC的统一管理。其推理平台则采用华为自研Taishan服务器,配置Euler OS及Guass Database,安全可信。

 

这样分析下来,难怪iCooling@AI出自华为,也只有华为。

正如开头所说,现在正是冬季,数据中心PUE及能耗处于一年中的最低水平。iCooling@AI能效优化技术在中国移动宁夏数据中心(中卫)的应用效果虽然已经表现不俗,但仅仅是牛刀小试而已。相信随着未来iCooling@AI能效优化技术的大范围应用,以及在高负载高温等全年众多场景下,其在降低PUE和能耗上取将得更令人惊艳的成效,为数据中心绿色节能之路贡献更多力量。