快好知 kuaihz

探访百度阳泉云计算中心,百度 AI 的底气从何而来?

2018 年底,百度宣布技术体系架构整合 ABC 智能云事业部升级为智能云事业群组(ACG),同时承载人工智能 toB 业务和云业务;搜索公司及各 BG 的运维、基础架构和集团级共享平台整合至基础技术体系(TG)。

百度创始人、董事长李彦宏称此次组织架构调整将强化集中资源 " 打大仗、打硬仗 " 的能力,帮助百度客户完成智能化转型、早日迈入 AI 时代。" 百度将打造 AI 时代最领先的技术平台,实现前端业务和技术平台的资源高效统筹及组织全面协同。"

数据中心作为上述一切业务的基础,是百度发力 AI 的根基。

目前,百度在阳泉、顺义、南京等地区都已部署数据中心。本周,钛媒体探访了百度阳泉云计算中心,该中心是百度自建的第一个超大规模数据中心,也是亚洲规模最大的数据中心

如图所示,阳泉云计算中心分为八个模组楼,而每一个区域则通过一条环状长廊连接在一起,在发生紧急状况时工作人员能够灵活调度。

就在刚刚过去的 2019 年春节,百度抗住了春晚红包互动活动的数据流冲击,阳泉云计算数据中心功不可没。

" 春晚的数据流可以用惊涛骇浪来形容。全球观众互动次数达到 208 亿次,春晚数据流量预计每秒峰值 5000 万次,每分钟峰值 10 亿次。" 百度系统部总监张炳华说道。

靠近用户的阳泉云计算中心

目前,百度在阳泉、顺义、南京等多个地区都已部署数据中心。其中,阳泉中心是百度自建的第一个超大规模数据中心,从 2011 年 9 月选址到 2018 年 9 月一期整体交付,历时 7 年,直至今日,阳泉云计算中心仍在不停的建设、扩展中。

百度阳泉云计算中心规划建筑面积超过 20 万平米,按照 T3+ 标准设计,服务器装机能力超过 28 万台。一期已建成投产建筑面积约 12 万平方米,建设涵盖 8 个高标准模组楼,机房满载可提供约 6000 个 40A 机柜、承载 16 万多台服务器。为百度智能云、百度 App、百度地图、智能城市、小度、Apollo 等百度内外部的产品和厂商提供强劲的计算能力。

选址

张炳华表示,百度在东、南、西北各大区都有数据中心选址布局,和大部分公司一样,具体选到哪可能有各种因素考量,从技术上看,主要考察以下 6 个方面的因素,最后综合平衡选择。

第一,就是环境地理条件。远离地震、海啸、台风等自然灾害地区的,除此之外,还要考虑气候条件,气候适宜有利于降低成本;第二,政策支持力度 ;第三,电力、水力的丰富度,丰富的电力和水源供应,是建设数据中心的必备条件;而且,电价也是要重点考量因素,电力成本占运营成本的 60、70%;第四,网络技术条件,地方很好,政策也好,网络接入能力好不好,能不能接入运营商骨干网,也是选址需要重点考虑的点;第五,交通环境;第六,人才条件。而选择在阳泉,则是考虑百度的业务类型,以及靠近用户,提升用户体验。

据介绍,目前百度阳泉云计算中心使用百度自主研发高性能交换机,提供超大规模的网络吞吐能力,支持 10G、25G 的通用计算网络接入和 100G 的 AI 高速无损网络互联技术。

数据中心外部,百度网络构建了三个时延圈:从数据中心覆盖用户时延不超过 30ms,从 POP 点覆盖用户的时延不超过 10ms,从 CDN 覆盖用户的时延不超过 2ms,确保全国用户的全面覆盖和就近接入。在数据中心内部,百度通过大带宽、低时延、无损网络,把数据中心数十万台服务器连接成为一个超级计算机。

优化

数据中心建设周期长,在规划过程中必须具备前瞻性。在这几年陆续建设过程中,各种先进技术都在逐渐被运用到阳泉云计算中心。其中,数据中心模块化技术、整机柜服务器技术成为了数据中心国家技术标准。其他不断成熟应用的领先技术包括 AHU 风扇墙、市电直供 +HVDC、OCU 等等。

目前,该中心已上线服务器超过 15 万台、年均 PUE 低至 1.09、超过 300 万个 CPU 核、存储容量超过了 6EB。

图为 " 天蝎 " 整机柜服务器。2012 年开始规划设计时,决定取消架空地板的设计,全部按照整机柜交付模式设计,从卸货平台、走廊、电梯到机房全程实现无障碍交付设计,阳泉云计算中心的服务器,全部是以整机柜服务器方式设计制造和交付的。

张炳华介绍到,PUE (Power Usage Effectiveness,电力使用效率),是国际上通行的衡量数据中心能源效率的指标,PUE 值是指数据中心总能耗(供电、制冷、照明、IT)与 IT 能耗之比。PUE 值越接近于 1,表示效率越高。

" 数据中心成本中,电力成本占了 60%-70%,降低 PUE,可以直接降低数据中心的运营成本,提高产品的竞争能力。通过技术创新,提高数据中心能效,对行业有极大的示范作用和带动作用,同时,可以减少能源消耗,减少 CO2 排放。"

百度阳泉云计算中心监控中心,如屏幕所示,实际当天的 PUE 为 1.06,还要低于 1.09 这一数值。

除了 PUE 以外,数据中心的机架规模、功率密度、运行稳定性、运营成本等,都是数据中心的核心指标。

对标国际巨头,百度阳泉云计算中心数据中心单体规模、算力、存储容量方面上非常强大,比如:采用 " 天蝎 " 整机柜服务器、" 冰山 " 冷存储系统、"X-MAN" AI 超级计算平台等;在数据中心基础设施架构非常领先,比如:高效供电、免费冷却、智能控制,并与服务器、网络设备间的协同创新,达到最佳匹配效果。

安全

业务安全及用户体验对于任何一个数据中心来说都是至关紧要的。百度智能云产业智能化业务负责人李硕介绍到,百度采用分层机制,基本能够做到 N+1 的服务模式,即一个用户可以通过多个入口来访问百度的服务,若访问数据时物理服务器出现故障,会通过智慧调度系统实现分层处理。

" 对于相对比较冷的数据,比如阳泉和青岛各有备份,在网盘中就不会有对应的数据,但即使该数据在 10 年内没有被用到,我们当前在使用时也能很快访问到,这个是和底层完全剥离的。如果是非常火的数据,会在多个系统中增加备份,这样南方的用户可以在广州访问,北方的用户可以在阳泉或青岛访问。"

李硕表示:" 随机关掉百度的任何一个数据中心,我们访问依旧没有任何问题,到今天为止依然是这样,这是上层服务设计需要做到的。"

在管理上,阳泉数据中心与北京总部实时联动。阳泉数据中心团队主要负责数据中心 7*24 时值班,负责现场运营管理、故障处理和维护保养,业务层面的部署和调度由总部统一调度。

为百度 AI 提供超强算力

2018 年底,百度刚刚发布自主研发的超级 AI 计算平台 X-MAN3.0。该平台专为 AI 深度学习场景优化设计,每秒完成 2000 万亿次深度神经网络计算,极大的加快了 AI 深度学习模型的训练速度。

就在阳泉云计算中心,钛媒体看到了 " 传说中 " 的 AI 计算集群。" 冷板式液冷技术已经在百度 X-MAN 2.0 上规模应用了。" 据张炳华介绍,2017 年上线的 X-MAN 2.0,是国内首个采用液体冷却技术的 GPU 解决方案,实现了超高的散热效率,规模应用后,可以去除制冷机组,全面实现无冷机运行。

AI 计算集群

目前,阳泉云计算中心是由 CPU 通用计算 +GPU 异构计算 +XPU 新一代 AI 处理架构所组成的强大算力平台。不仅仅是百度搜索、度秘、智能云、基础技术、新兴业务的基础,更是百度发力人工智能、自动驾驶、AI 的重要基石。

张炳华对钛媒体说道,这些算力平台定义了 AI 时代的基础设施标准,并为百度 AI 技术多年积累和业务实践的集大成——百度大脑提供了强大的算力平台。而算力平台之上的百度大脑,则为百度的 AI 业务提供了强有力的算法和数据支持。

" 我们都希望通过开源和开放,把中国的数据中心产业生态做好,缩小与国际先进水平的差距,大家一起想办法把蛋糕做大,把规模效益做起来,这样的话,每个参与者都是受益者。ODCC 每年发布的几十项成果,这些成果都是由各个会员单位贡献的,这些个成果都是开放的。随着这个生态的规模越来越大,产业链越来越成熟,也越来越得到行业的认可。"

来源:钛媒体

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:阳泉  阳泉词条  计算中心  计算中心词条  百度  百度词条  底气  底气词条  探访  探访词条