范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

又是拼装货?英伟达800亿晶体管核弹GPU芯片架构深入解读

  编者注:NVIDIA 在 3 月 23 日公布基于全新 Hopper 架构的 GPU H100,其多种精度下的 AI 性能达到上一代 A100 的 3~6 倍。NVIDIA 如何做到如此大幅的性能升级?Hopper 架构有何玄机?千芯科技董事长陈巍博士对此加以解读。
  在 2022 年 3 月 NVIDIA GTC 大会上,NVIDIA 创始人兼 CEO 黄仁勋介绍了一款基于全新 Hopper 架构的 H100 GPU,这是英伟达迄今用于加速人工智能(AI)、高性能计算(HPC)和数据分析等任务的最强 GPU 芯片。
  ▲ Hopper 架构 H100 GPU 的主要升级
  Hopper 架构以计算科学的先驱 Grace Hopper 的姓氏命名。黄教主称:"Hopper H100 是有史以来最大的代际飞跃。H100 具有 800 亿个晶体管,在性能上堪称 NVIDIA 的"新核弹"。
  那么,"新核弹"的核心是什么样的?本文将深入解读和分析 Hopper 架构。
  ▲ Hopper 架构的 H100 与前几代 GPU 性能对比
  注:Grace Hopper 博士是哈佛 Mark 1 的首批程序员,被誉为编译语言之母。据称她发现了计算机程序中的第一个 Bug,同时也创造了计算机世界最大的 Bug—— 千年虫。01. Hopper 的整体结构拆解
  NVIDIA Hopper 架构 H100 芯片采用台积电 4nm 工艺(N4 是台积电 N5 工艺的优化版),芯片面积为 814 平方毫米(比 A100 小 14 平方毫米)。
  ▲ H100 Tensor Core GPU 的性能规格
  Hopper 架构可以视为由两组对称结构拼接而成。(是不是有点类似我们之前介绍的苹果 UltraFusion 架构的拼接思路?不过这里的 GPU 还是单片的。回顾苹果 UltraFusion 架构可参见《苹果芯片"拼装"的秘方,在专利里找到了》文章。)
  在顶层拓扑上,Hopper 似乎与她的前辈 Ampere 架构差别不大。图中的 Hopper 架构 GPU 由 8 个图形处理集群(Graphics Processing Cluster,GPC)"拼接"组成。
  ▲ Hopper 架构基本结构
  外周与多组 HBM3 封装在一起(Chiplet 技术),形成整个芯片模组 —— 从模组上看又是个"拼装货"。片上的每个 GPC 又由 9 个纹理处理集群 (Texture Processor Cluster,TPC)"拼接"组成。
  由 PCIe5 或 SMX 接口进入的计算任务,通过带有多实例 GPU(Multi-Instance GPU,MIG)控制的 GigaThread 引擎分配给各个 GPC。GPC 之间通过 L2 缓存共享中间数据,GPC 计算的中间数据通过 NVLink 与其他 GPU 连接 / 交换。每个 TPC 由 2 个流式多处理器(Streaming Multiprocessor,SM)组成。
  Hopper 架构的性能提升和主要变化体现在新型线程块集群技术和新一代的流式多处理器(具有第 4 代张量核心)。
  ▲ 线程块集群和带有集群的网格
  Hopper 架构中引入了一种新的线程块集群机制,该机制可以跨 SM 单元进行协同计算。H100 中的线程块集群可在同一 GPC 内的大量 SM 并发运行,这样对较大的模型具有更好的加速能力。02. 新一代流式多处理器 SM 与 FP8 支持
  Hopper 架构的新一代流式多处理器引入了 FP8 张量核心(Tensor Core)来加速 AI 训练和推理。FP8 张量核心支持 FP32 和 FP16 累加器,以及两种 FP8 输入类型(E4M3 和 E5M2)。
  ▲ 流式多处理器 SM
  与 FP16 或 BF16 相比,FP8 将数据存储要求减半,吞吐量翻倍。我们在 Transformer 引擎的分析中还会看到使用 FP8 可自适应地提升 Transformer 的计算速度。
  每个 SM 包括 128 个 FP32 CUDA 核心、4 个第 4 代张量核心(Tensor Core)。
  进入 SM 单元的指令首先存入 L1 指令缓存(L1 Instruction Cache),然后再分发到 L0 指令缓存(L1 Instruction Cache)。与 L0 缓存配套的线程束排序器(Wrap Scheduler)和调度单元(Dispatch Unit)来为 CUDA 核心和张量核心分配计算任务。(注:GPU 中最小的硬件计算执行单位是线程束,简称 Warp。)
  ▲ FP8 具有 FP16 或 BF162 2 倍吞吐量
  每个 SM 通过使用 4 个特殊函数单元(Special Function Unit,SFU)单元进行超越函数和插值函数计算。03. Hopper 的张量核心与 Transformer 引擎
  在 GPU 中,张量核心是用于矩阵乘法和矩阵累加 (Matrix Multiply-Accumulate,MMA) 数学运算的专用高性能计算核心,可为 AI 和 HPC 应用程序提供突破性的性能加速。
  张量核心是 GPU 中做 AI 加速的关键模块,也是 Ampere 及之后 GPU 架构与早期 GPU 的显著区别所在。
  Hopper 的张量核心支持 FP8、FP16、BF16、TF32、FP64 和 INT8 MMA 数据类型。这一代张量核心的关键点是引入了 Transformer 引擎。
  ▲ H100 FP16 Tensor Core 的吞吐量是 A100 FP16 Tensor Core 的 3 倍
  Transformer 算子是主流的 BERT 到 GPT-3 等 NLP 模型的基础,且越来越多地应用于计算机视觉、蛋白质结构预测等不同领域。
  与上一代 A100 相比,新的 Transformer 引擎与 Hopper FP8 张量核心相结合,在大型 NLP 模型上提供高达 9 倍的 AI 训练速度和 30 倍的 AI 推理速度。
  ▲ 新的 Transformer 引擎动态调整数据格式以充分运用算力
  为了提升 Transformer 的计算效率,在这一新的 Transformer 引擎中使用了混合精度,在计算过程中智能地管理计算精度,在 Transformer 计算的每一层,根据下一层神经网络层及所需的精度,在 FP8 和其他浮点格式中进行动态格式转换,充分运用张量核心的算力。04. 张量存储加速器与异步执行
  Hopper 架构中新增加了张量存储加速器 (Tensor Memory Accelerator,TMA) ,以提高张量核心与全局存储和共享存储的数据交换效率。
  在这一新的 TMA 操作中,使用张量维度和块坐标指定数据传输,而不是简单的按数据地址直接寻址。TMA 通过支持不同的张量布局(1D-5D 张量)、不同的存储访问模式、显著降低了寻址开销并提高了效率。
  也就是说,原来是一个一个的捡豆子(数据),现在的方法就是一碗一碗的舀豆子。这样的设计,是不是越来越接近 DSA 的寻址方式?
  ▲ TMA 的块坐标寻址方式
  当然,TMA 操作是异步的,多个线程可以共享数据通道,排序完成数据传输。
  TMA 的一个关键优势是它可以在进行数据复制的时候,释放线程的算力来执行其他工作。
  例如,在 A100 上,由线程本身负责生成所有地址执行所有数据复制操作。但在 Hopper 中,TMA 来负责生成地址序列(这个思路类似 DMA 控制器),接管数据复制任务,让线程去做其他事。
  ▲ Hopper 架构的 H100 的基于 TMA 的存储复制效率更高05. 结语:GPU 走向领域专用化
  总体而言,基于 Hopper 架构的 H100 计算性能比 Ampere 架构的 A100 提高了大约 6 倍。
  性能大幅提升的核心原因在于引入 FP8 后的张量核心和针对 NLP 任务的 Transformer 引擎,特别是 TMA 技术减少了 SM 单元在数据复制时的无用功。
  从设计哲学上看,针对数据中心的 Hopper 架构中 DSA(Domain Specific Architecture,特定领域架构)的想法越来越多,且流多处理器间的协作变多。大概老黄也觉得,GPU 应朝着领域专用化的方向去发展。
  今年发布 Hopper 架构相对 Ampere 架构有较多的微观进步,希望老黄下次能给我们带来更多的技术惊喜。
  参考文献:《NVIDIA H100 Tensor Core GPU Architecture》白皮书,英伟达;《GPGPU 芯片设计:原理与实践》,陈巍、耿云川

首发直省200元,华为MateBook13笔记本电脑开启预约IT之家12月18日消息华为MateBook13笔记本电脑开启新品预约活动,全系新品预约立减200元,25日10点开始抢购,2K全面屏一碰传指纹电源键白条6期免息点此预约。i58G英伟达推买RTX20系列显卡送战地5活动,香港地区可参与IT之家11月21日消息随着黑色星期五的到来,英伟达也推出了买RTX20系列显卡送战地5活动,目前包括微星EVGA等多个英伟达合作伙伴已经推出了这个活动,但是只有中国的香港澳门地区10月大陆显卡出货量排行榜出炉七彩虹第一,整体表现惨淡IT之家11月20日消息根据博板堂的消息,10月大陆显卡品牌出货量排行榜现已出炉,七彩虹稳居第一,影驰和华硕分列第二和第三名。图自博板堂10月大陆显卡品牌出货量排行榜TOP8七彩虹智能双屏eSIM,TicWatchPro智能手表4G版首发预定IT之家11月29日消息出门问问TicWatchPro4G版的已开启预售活动现在1元定金可抵100元尾款,12月1日支付尾款1699元,最终到手价1700元,有幻影黑和流光银两色可命名疑云外媒称高通骁龙新处理器不叫8150IT之家11月29日消息高通已经宣布,将在12月初举行高通骁龙年度技术峰会,众所期盼的高通骁龙8150新处理器有望在会上亮相。不过,今日外媒PCMag的编辑SaschaSegan在99元,荣耀手环4Running版今日1008再次开售IT之家10月11日消息荣耀手环4Running版将于今日1008再次开售,售价99元。官方旗舰店还需抢购,但第三方店铺已经大量原价铺货,没有抢到错过抢购的小伙伴可以参考一下官方自英伟达RTX移动端显卡曝光笔记本也要用光线追踪了IT之家10月11日消息根据外媒Wccftech获得的独家消息,英伟达RTX移动端显卡产品线将于明年CES期间公布,届时RTX2070等移动端显卡将登场,而RTX2080MaxQ将3690元,美发新科技戴森Airwrap美发造型器首发上市IT之家10月10日消息戴森Airwrap美发造型器今日首发上市,16日正式开卖。京东现已开启预约,16日之前付定金100元,24日补尾款。继超级网红空心吹风机后又一款黑科技造型的618元再次探底,3500MBS读取三星970EVO250GM。2固态硬盘秒杀大促IT之家10月10日消息三星970EVONVMeM。2250GB固态硬盘日常售价699元,今日秒杀价618元。3500MBS读取,2500MBS写入,顶级的NVMe固态硬盘,再至新华为NM卡速度测试读90MBs,写75MBsIT之家11月10日消息根据华为手机产品线副总裁李小龙的微博,他拿手头的几张存储卡测了一下速度,NM卡的读速约90MBs,写速约75MBs。从李小龙的测试数据中可以看出,三星EVO大疆双11京东优惠专场御MavicAIR特价4599元IT之家11月10日消息10月29日,大疆正式宣布推出御Mavic2行业版无人机,官方称,这款无人机将性能与便携性提升至全新高度。现在,大疆京东多款无人机开启双11优惠,除了直降优
技嘉发布Z390AorusXtremeRGB水冷主板流光溢彩IT之家12月13日消息根据外媒的报道,技嘉发布Z390AorusXtremeRGB水冷主板,它是Z390AorusXtreme主板的水冷升级版,售价预计在650700美元之间,约技嘉Z390AORUSXTREME主板开启预约双雷电3接口,3路AMDGPU交火IT之家12月7日消息今日技嘉的旗舰级主板Z390AORUSXTREME在京东开启了预约,它搭载了堪称豪华的配置。技嘉Z390AORUSXTREME板型为EATX,采用了162相电技嘉RTX2070MiniITX曝光小机箱也能用上光线追踪IT之家11月29日消息根据外媒报道,技嘉RTX2070MiniITX现已曝光,这款MiniITX将成为MINI尺寸的第二款RTX卡。MSI的AEROITX图片已于两周前发布。但是SK海力士研发出1Ynm8GbDDR4内存条功耗降低15,明年Q1出货IT之家11月12日消息根据外媒TechPowerup的消息,SK海力士公司宣布已开发出1Ynm8GBDDR4DRAM。与上一代1XnmDRAM相比,该产品的效率提高了20,功耗降七彩虹iGame首款内存公布8G3200MHz售价599元IT之家11月3日消息今天七彩虹宣布了iGame首款内存的价格,8G3200MHz售价599元,将于未来两周内在电商平台上架。据介绍,iGameDDR48G3200其工作电压为1。金士顿骇客神条DDR426668GB京东秒杀479元今年最低价格IT之家11月1日消息金士顿骇客神条DDR426668GB现已在京东开启秒杀,479元达到今年最低价格,有需要的小伙伴现在可以下手了。小编也在近期购买了两根这款内存条,当时售价57IT之家评测室苹果Macmini体验评测macOS的滋味,6000就能了解如果不是今年10月30日突如其来的更新,或许很多消费者几乎认定苹果Macmini这条产品线十有八九是被砍了,正如他们苦盼不来的MacBoookAir新品。而恰好是10月30日的新品8699元,inteli99900X盒装CPU处理器国行新品发售IT之家12月12日消息inteli99900X盒装CPU处理器今日国行首发上架,售价8699元。10核心20线程的X299平台i9,开盖超频点此购买。虽然在命名上与Corei99魅族商城上架时光机服务将旧手机拆解裱起来IT之家11月11日消息根据魅族官方的消息,魅族Care时光机服务正式上架魅族官方商城,用户提供旧机,魅族将排版设计,将旧手机装裱起来,服务费299元。官方称,魅族Care时光机服米家电吹风小米小爱音箱HD实锤即将发售感谢IT之家网友软媒用户1650373的线索投递!IT之家9月30日消息近日小米三款新品获得了3C认证,暗示距离发售不远了。这三款新品分别是小米小爱音箱HD小米电视新品(小米电视4微星RTX2070AeroITX曝光可能是现阶段最小的20系显卡IT之家11月14日消息据外媒报道,近日微星RTX2070AeroITX显卡曝光,这款显卡可能是现阶段最小的20系显卡。这块小卡对于MiniITX主机用户来讲无疑是个好消息。毕竟未