矿难是暂时的,英伟达不怕
在黄仁勋沉溺于展示RTX技术给游戏画面带来的惊艳改变之前,他首先隆重介绍了舞台侧面的技术演示团队,「这是我的技术团(tech band),我们就像支乐队(band),全球巡回(演出)。」
11月21日苏州金鸡湖会议中心,会场还没开门就排起了密密麻麻的长队。开场前,屏幕上硕大的logo照亮了整齐坐好的前排观众,他们头顶绿光,兴奋难耐,宛如邪教现场。演讲开始,观众席一阵狂热的欢呼与亢奋,自比乐队的「教主」黄仁勋受到了摇滚明星般的礼遇。
「知道什么是程序员的天堂吗?」我的同事感叹道。比起技术大会,GTC更像是一次粉丝的狂欢节,黄仁勋就是那个舞台上风光无二的乐队主唱。
「世界上最棒的工作」
「乐队」带来的第一场表演,是一款有着英伟达最新推出的「光线追踪」技术加持的中国风游戏「逆水寒」,这是中国第一款RTX游戏。
黄仁勋演示了一段游戏画面,雨后江南小镇的集市上,石板路上残余的水渍倒映着街边小摊撑起的灯笼,光滑程度不均的剑客铠甲和一瞬间掠过的刺客匕首都反射着实时变化的光线……黄仁勋突然叫停:「看一下关掉RTX会怎样。」
游戏世界在一瞬间失去了光彩,路面、刀身和铠甲反射的光线失去了原本的灵动,全场哗然,黄仁勋藏不住骄傲,「再打开!」
「关掉,打开,再关掉,再打开,」伴随着观众极其配合的惊叹声,舞台上的黄仁勋玩嗨了,「我可以这么玩一天,太有趣了。」
「我们拥有世界上最棒的工作。」演示结束,黄仁勋意犹未尽。
光线追踪是英伟达今年夏天刚刚发布的技术,它可以模拟光线的物理行为,取代传统渲染技术使用的粗糙近似值,实现实时模拟光线在场景周围真实反射、照亮物体、改变色调,并最终进入用户眼睛的过程。
图像技术背后是英伟达同时发布的第八代GPU架构Turing(图灵)。它包含三款处理器,基本的可编程着色器、负责光线追踪的RT Core以及一款名为Tensor Core的AI处理器。凭借超过100 TFLOPS的处理速度,Turing可以对深度学习模型进行处理,进而生成特效,增强图像的质量,或者制作AI角色动画等等。
黄仁勋还展示了抗锯齿技术DLSS(深度学习超级采样)加持的RTX 20系列GPU在性能上实现的突破。Turing DLSS由两个模型组成,其中一个模型经训练后可以根据原始图像生成超高画质的图像,另一个则主要针对分辨率优化训练,如此一来,图灵架构的Tensor Core就可以同时实现高画质和高帧率的效果。现场黄仁勋表示,支持DLSS的Turing架构的RTX20系列GPU可以实现1.8倍的性能提升,带来的结果是,499美元的RTX 2070运行速度甚至超过了699美元Pascal架构的GTX 1080 Ti。
The more you buy, the more you save
和往届的GTC稍有不同的是,图形处理只是开场的热身,英伟达把更多的时间留给了加速计算。
挑起话题的还是摩尔定律的失效。CPU的增长速度逐渐放缓,越来越难以满足当下计算科学的需求,为此,十年前英伟达提出了「加速计算」的概念,时至今日加速计算依然保持着较高的迭代速度。
英伟达对软件堆栈、芯片架构、系统软件、算法、应用程序进行了重新设计,通过自下而上的全堆栈解决方案突破GPU的算力瓶颈。「这就是为什么,英伟达是一家软件和算法的公司。」为了应对如今AI研究、训练对算力的旺盛需求,英伟达针对HPC(高性能计算机)和超大规模数据中心这两种计算形式,推出了自己的应对方案。
HGX-2 GPU是英伟达专为AI深度学习、机器学习和高性能计算打造的加速服务器平台,它在单节点中能够提供2000万亿次的计算性能,对比仅仅使用CPU的服务器,HGX-2运行机器学习时的工作负载提高了550倍。黄仁勋从舞台侧面掏出这款巨大的GPU母版,「这是我臂力的极限了,」他单手托举着HGX-2说道,「这台电脑将取代400个服务器。」现场掌声和尖叫声哗然而起。
「不是很便宜的。」黄仁勋突然打趣地用中文说道,他说数据科学家是现在薪水最高的工程师,「他们的工作是最有价值的,这就是他们的工具,这会增加他们的生产力。」台下的观众纷纷表示认同。
目前,已有多家中国科技公司开始采用这款GPU加速平台,英伟达在现场发布了百度、腾讯、浪潮、联想、华为和曙光等大公司与英伟达就HGX-2服务器达成合作的关系,其中,百度和腾讯将使用HGX-2为内部应用和云计算服务的客户提供AI计算服务。
超大规模数据中心方面,黄仁勋展示了英伟达的Tesla T4云GPU,不同于体积大到难以单手托起的HGX-2,T4的体积很小,「只有糖果盒那么大」,功耗更是比一块CPU还要小。「但是它的性能,跟一个做深度学习的CPU相比,它的性能是其300倍。」欢呼一片。
通过Kubernetes容器系统和服务器系统对GPU进行运算和整体使用率的优化,用户可以在诸多GPU上同时运行任何一个算法模型,从而最大化数据中心的使用率。
现场,黄仁勋手上的T4芯片在30天前才刚刚开始量产,现在已有浪潮、华为、联想、曙光、浪潮和新华三等中国服务器公司采用了这款产品,是英伟达史上普及最快的GPU。
摩尔定律的消亡之外,人工智能的兴起是英伟达捕捉到的另一重要趋势,其背后最为流行的机器学习和深度学习,自然也会受到研究计算科学的英伟达的关注。
一周前,英伟达发布了一个GPU加速的开源平台RAPIDS,专为大规模的数据分析和机器学习设计,数据科学家们可以在GPU上运行数据科学管线,从而大幅度地缩短数据集处理时间。
在中国,三家AI医疗公司最先开始了对RAPIDS平台的使用。平安集团旗下的平安科技在使用RAPIDS之后,在研究欺诈检测和预测人群疾病等业务上,执行速度加快了80倍,数据加载和训练时间从几天缩短到几个小时。国内最大的基因公司华大基因的AI团队在英伟达DGX-1 AI超算上运行RAPIDS平台,分析速度提高了17倍,将多肽的分析范围扩大至几百万种。垂直做数字化健康业务的创业公司碳云智能在腾讯云的服务器上部署了RAPIDS,将其对微生物组的数据分析速度加快了6倍。
算力对AI研究的改变是立竿见影的,「前后对比一下,买得越多,省的钱就越多。」(The more you buy, the more you save)英伟达头号销售黄仁勋说道。
「自动化这个世界」
演讲的第三部分,是英伟达近两年才刚刚开始布局的「自主机器」领域。
针对自动驾驶、机器人等AI落地应用,英伟达在2017年推出了一款AI芯片Xavier,目前这款芯片已经进入量产阶段。
为了这款芯片的多个应用领域,英伟达相应地开发了多款加速堆栈。用于智能成像仪的Clara,视频流分析应用程序的Metropolis,机器人技术的Isaac以及自动驾驶汽车的DRIVE。
其中Isaac平台在国内与京东、美团和菜鸟达成了合作,开发「最后一公里」的配送机器人、无人机等等。
自动驾驶技术领域,英伟达的「全软件堆栈」的自动驾驶系统Drive OS为客户提供从芯片到软件的端到端的解决方案。但英伟达也意识到,凭借自己的能力并不能完全解决自动驾驶的难题,「造车」领域有着非常多的困难,因此它选择向客户提供一个三层的开放平台,底层是硬件体系,第二层是基于CUDA架构的软件体系,最后一层是整体的自动驾驶系统,用户可以自己进行选择和取舍。
在国内,英伟达与卡车制造商达成了合作,智加科技和满帮集团都使用了英伟达的自动驾驶计算系统。自动驾驶初创公司AutoX也与英伟达达成了合作,推进其L4级别配送技术的研究。
新造车方面,国内小鹏汽车、奇点汽车和SF Motors都与英伟达达成了无人驾驶技术的合作,开始使用英伟达DRIVE AGX自动驾驶平台推进自动驾驶技术的落地。
暂时的「矿难」,永恒的计算
在苏州GTC开幕的几天前,英伟达刚刚遭遇了一次股价的腰斩。
近来加密货币的热度渐低,受到挖矿热潮照顾许多的英伟达「矿机」销量受到打击,甚至出现了严重的库存危机,加上近来刚刚发的RTX20系列显卡被曝存在设计问题,英伟达的股价在季度财报发出之后经历了连续暴跌。
在GTC现场,记者向英伟达的高管团队抛出了股价暴跌的问题,负责市场运营的全球执行副总裁Jay Puri笑着说,「看来你们都注意到我们的股票跌了」。在座的高管团队相视淡然一笑。
Puri表示,「加密货币」业务确实对英伟达造成了超出预期的负面影响,但如CEO黄仁勋在演讲中提到的,加密货币对英伟达而言是与游戏完全不同的业务,英伟达会更加专注于游戏玩家用户群,进而减少加密货币对公司总体业绩的影响。
可以看到,虽然「矿机」显卡的销量仍然是对公司收入影响最大的一个变量,但英伟达早已看向更远的地方。在苏州GTC的现场,英伟达和黄仁勋的重点都在计算和AI领域。「股价并不是英伟达奋斗的目标,我们认为不断推动整个计算的发展是非常重要的,我们持续服务于游戏、高性能计算、人工智能、自动驾驶、智能机器人等创新,我们相信这些工作做好了,股价也不是问题。」
「未来1-2个季度,相信你们会看到一个形势走好的情况。」Puri补充说道。