又是拼装货？英伟达800亿晶体管核弹GPU芯片架构深入解读

　　编者注：NVIDIA 在 3 月 23 日公布基于全新 Hopper 架构的 GPU H100，其多种精度下的 AI 性能达到上一代 A100 的 3~6 倍。NVIDIA 如何做到如此大幅的性能升级？Hopper 架构有何玄机？千芯科技董事长陈巍博士对此加以解读。
　　在 2022 年 3 月 NVIDIA GTC 大会上，NVIDIA 创始人兼 CEO 黄仁勋介绍了一款基于全新 Hopper 架构的 H100 GPU，这是英伟达迄今用于加速人工智能（AI）、高性能计算（HPC）和数据分析等任务的最强 GPU 芯片。
　　▲ Hopper 架构 H100 GPU 的主要升级
　　Hopper 架构以计算科学的先驱 Grace Hopper 的姓氏命名。黄教主称：＂Hopper H100 是有史以来最大的代际飞跃。H100 具有 800 亿个晶体管，在性能上堪称 NVIDIA 的＂新核弹＂。
　　那么，＂新核弹＂的核心是什么样的？本文将深入解读和分析 Hopper 架构。
　　▲ Hopper 架构的 H100 与前几代 GPU 性能对比
　　注：Grace Hopper 博士是哈佛 Mark 1 的首批程序员，被誉为编译语言之母。据称她发现了计算机程序中的第一个 Bug，同时也创造了计算机世界最大的 Bug—— 千年虫。01. Hopper 的整体结构拆解
　　NVIDIA Hopper 架构 H100 芯片采用台积电 4nm 工艺（N4 是台积电 N5 工艺的优化版），芯片面积为 814 平方毫米（比 A100 小 14 平方毫米）。
　　▲ H100 Tensor Core GPU 的性能规格
　　Hopper 架构可以视为由两组对称结构拼接而成。（是不是有点类似我们之前介绍的苹果 UltraFusion 架构的拼接思路？不过这里的 GPU 还是单片的。回顾苹果 UltraFusion 架构可参见《苹果芯片＂拼装＂的秘方，在专利里找到了》文章。）
　　在顶层拓扑上，Hopper 似乎与她的前辈 Ampere 架构差别不大。图中的 Hopper 架构 GPU 由 8 个图形处理集群（Graphics Processing Cluster，GPC）＂拼接＂组成。
　　▲ Hopper 架构基本结构
　　外周与多组 HBM3 封装在一起（Chiplet 技术），形成整个芯片模组 —— 从模组上看又是个＂拼装货＂。片上的每个 GPC 又由 9 个纹理处理集群 （Texture Processor Cluster，TPC）＂拼接＂组成。
　　由 PCIe5 或 SMX 接口进入的计算任务，通过带有多实例 GPU（Multi-Instance GPU，MIG）控制的 GigaThread 引擎分配给各个 GPC。GPC 之间通过 L2 缓存共享中间数据，GPC 计算的中间数据通过 NVLink 与其他 GPU 连接 / 交换。每个 TPC 由 2 个流式多处理器（Streaming Multiprocessor，SM）组成。
　　Hopper 架构的性能提升和主要变化体现在新型线程块集群技术和新一代的流式多处理器（具有第 4 代张量核心）。
　　▲ 线程块集群和带有集群的网格
　　Hopper 架构中引入了一种新的线程块集群机制，该机制可以跨 SM 单元进行协同计算。H100 中的线程块集群可在同一 GPC 内的大量 SM 并发运行，这样对较大的模型具有更好的加速能力。02. 新一代流式多处理器 SM 与 FP8 支持
　　Hopper 架构的新一代流式多处理器引入了 FP8 张量核心（Tensor Core）来加速 AI 训练和推理。FP8 张量核心支持 FP32 和 FP16 累加器，以及两种 FP8 输入类型（E4M3 和 E5M2）。
　　▲ 流式多处理器 SM
　　与 FP16 或 BF16 相比，FP8 将数据存储要求减半，吞吐量翻倍。我们在 Transformer 引擎的分析中还会看到使用 FP8 可自适应地提升 Transformer 的计算速度。
　　每个 SM 包括 128 个 FP32 CUDA 核心、4 个第 4 代张量核心（Tensor Core）。
　　进入 SM 单元的指令首先存入 L1 指令缓存（L1 Instruction Cache），然后再分发到 L0 指令缓存（L1 Instruction Cache）。与 L0 缓存配套的线程束排序器（Wrap Scheduler）和调度单元（Dispatch Unit）来为 CUDA 核心和张量核心分配计算任务。（注：GPU 中最小的硬件计算执行单位是线程束，简称 Warp。）
　　▲ FP8 具有 FP16 或 BF162 2 倍吞吐量
　　每个 SM 通过使用 4 个特殊函数单元（Special Function Unit，SFU）单元进行超越函数和插值函数计算。03. Hopper 的张量核心与 Transformer 引擎
　　在 GPU 中，张量核心是用于矩阵乘法和矩阵累加 (Matrix Multiply-Accumulate，MMA) 数学运算的专用高性能计算核心，可为 AI 和 HPC 应用程序提供突破性的性能加速。
　　张量核心是 GPU 中做 AI 加速的关键模块，也是 Ampere 及之后 GPU 架构与早期 GPU 的显著区别所在。
　　Hopper 的张量核心支持 FP8、FP16、BF16、TF32、FP64 和 INT8 MMA 数据类型。这一代张量核心的关键点是引入了 Transformer 引擎。
　　▲ H100 FP16 Tensor Core 的吞吐量是 A100 FP16 Tensor Core 的 3 倍
　　Transformer 算子是主流的 BERT 到 GPT-3 等 NLP 模型的基础，且越来越多地应用于计算机视觉、蛋白质结构预测等不同领域。
　　与上一代 A100 相比，新的 Transformer 引擎与 Hopper FP8 张量核心相结合，在大型 NLP 模型上提供高达 9 倍的 AI 训练速度和 30 倍的 AI 推理速度。
　　▲ 新的 Transformer 引擎动态调整数据格式以充分运用算力
　　为了提升 Transformer 的计算效率，在这一新的 Transformer 引擎中使用了混合精度，在计算过程中智能地管理计算精度，在 Transformer 计算的每一层，根据下一层神经网络层及所需的精度，在 FP8 和其他浮点格式中进行动态格式转换，充分运用张量核心的算力。04. 张量存储加速器与异步执行
　　Hopper 架构中新增加了张量存储加速器 (Tensor Memory Accelerator，TMA) ，以提高张量核心与全局存储和共享存储的数据交换效率。
　　在这一新的 TMA 操作中，使用张量维度和块坐标指定数据传输，而不是简单的按数据地址直接寻址。TMA 通过支持不同的张量布局（1D-5D 张量）、不同的存储访问模式、显著降低了寻址开销并提高了效率。
　　也就是说，原来是一个一个的捡豆子（数据），现在的方法就是一碗一碗的舀豆子。这样的设计，是不是越来越接近 DSA 的寻址方式？
　　▲ TMA 的块坐标寻址方式
　　当然，TMA 操作是异步的，多个线程可以共享数据通道，排序完成数据传输。
　　TMA 的一个关键优势是它可以在进行数据复制的时候，释放线程的算力来执行其他工作。
　　例如，在 A100 上，由线程本身负责生成所有地址执行所有数据复制操作。但在 Hopper 中，TMA 来负责生成地址序列（这个思路类似 DMA 控制器），接管数据复制任务，让线程去做其他事。
　　▲ Hopper 架构的 H100 的基于 TMA 的存储复制效率更高05. 结语：GPU 走向领域专用化
　　总体而言，基于 Hopper 架构的 H100 计算性能比 Ampere 架构的 A100 提高了大约 6 倍。
　　性能大幅提升的核心原因在于引入 FP8 后的张量核心和针对 NLP 任务的 Transformer 引擎，特别是 TMA 技术减少了 SM 单元在数据复制时的无用功。
　　从设计哲学上看，针对数据中心的 Hopper 架构中 DSA（Domain Specific Architecture，特定领域架构）的想法越来越多，且流多处理器间的协作变多。大概老黄也觉得，GPU 应朝着领域专用化的方向去发展。
　　今年发布 Hopper 架构相对 Ampere 架构有较多的微观进步，希望老黄下次能给我们带来更多的技术惊喜。
　　参考文献：《NVIDIA H100 Tensor Core GPU Architecture》白皮书，英伟达；《GPGPU 芯片设计：原理与实践》，陈巍、耿云川

新款白色OculusQuestVR头显更多图曝光本周早些时候，网络上曝光了采用纯白配色的新款OculusQuestVR头显，它或许很快以QuestLite或Quest2的名义与大家见面。现在，知名爆料人WalkingCat（h0三星发布AKGY600NC与Y400耳机售199109英镑三星近日推出了一批采用AKG音频技术的耳机新品，分别是支持主动式降噪功能的Y600NC和Y400系列，宣称可带来录音室级别的聆听体验。除了可最大限度减少干扰的主动式降噪功能，Y60SurfaceDuo确认支持蓝牙5。0将重构生产力继通过FCC认证之后，SurfaceDuo近日再次现身蓝牙SIG网站，确认支持蓝牙5。0技术。这表明，SurfaceDuo已经做好了上市发售的准备，有望在未来一两个月在美国市场销售OculusQuest2发布时间和更多图片曝光外媒slashgear报道称，虽然Oculus的下一款虚拟现实头套还没有正式发布，但他们还是在研究一些有关这款设备的泄的细节。这家外媒指出，其称之为OculusQuest2的设备可明基推EX2510EX2710电竞显示器售价249299美元明基（BenQ）旗下的电竞显示器系列MOBIUZ近日迎来了两位新成员EX2510以及EX2710。两款显示器均具备FreeSyncPremium144HzHRR（高刷新率）和1ms希捷披露了XboxSeriesX定制存储扩展卡的更多细节当微软在今年3月中旬发布XboxSeriesX时，也揭示了这款次世代主机的一些主要规格，比如定制的CPUGPU组合，以及可即时完成游戏加载和恢复的SSD。尽管XboxSeriesX疑似白色款OculusQuestLite或Quest2VR头显曝光昨日，知名爆料人WalkingCat（h0x0d）在推特上分享了一张纯白色的Oculus虚拟现实头显的照片，猜测其可能隶属于QuestLite或Quest2产品线。新硬件看似配备了微软高管XboxSeriesX会在今年11月上市发售根据科技记者DinaBass的最新推文爆料，微软新一代游戏主机XboxSeriesX的发售日期会选在今年11月。在采访过程中，Bass咨询ldquo新游戏主机rdquo的发售日期是一加发布OnePlusBuds支持快速配对续航30小时除了OnePlusNord之外，OnePlus还公布了首款真无线耳塞OnePlusBuds。与Nord只面向印度和欧洲市场相比，不同的是Buds也将进入美国等全球市场。OnePlu研究员研发一种手腕设备可以连续跟踪整个手部情况来自康奈尔大学和威斯康星大学麦迪逊分校的研究人员宣布开发出一种新的腕式设备，能够连续对人类的整个手部进行3D追踪。该设备名为FingerTrak，可以将人手许多位置转化为3D信息，因存在过热问题LG电子召回6万台OLED电视据国外媒体报道，LG电子表示，由于可能存在过热问题，该公司召回约6万台在韩国销售的OLED（有机发光二极管）电视，以更换其电源板。LG电子表示，一些组件出现了性能下降，然后导致电源

<<<<<<－>>>>>>

紫光旗下武汉新芯推出超小尺寸低功耗SPINORFlash产品XNOR工作电压范围1。65V2。0VIT之家10月1日消息9月27日，紫光旗下武汉新芯集成电路制造有限公司（简称武汉新芯），这是一家非易失性存储供应商，宣布推出超小尺寸低功耗SPINORFlash产品XNORXM25西部数据推出WDRedSN700NVMeSSDTLC颗粒，最大4TBIT之家9月29日消息西部数据今日在海外推出了WDRedSN700NVMeSSD。这款固态硬盘为M。22280规格，红色的标签表示该产品适用于NAS存储设备。该产品采用纯黑色PCB西部数据推出ElementsSE移动固态硬盘读取400MBs，最大2TBIT之家9月20日消息西部数据今日在海外推出了ElementsSE移动固态硬盘。这款产品继承了Elements系列的黑色外观，外形十分小巧。硬盘预计采用铝制外壳打造，长宽均为64。长江存储64层闪存颗粒出货超3亿颗，128层QLC准备量产9月14日，长江存储首席运营官程为华在2021中国闪存市场峰会上发表了主题为创新协作共筑存储生态的精彩演讲。他在演讲中提到，虽然全球智能手机出货量趋于稳定，但5G手机的市场渗透率却十铨科普QLC闪存新技术使得耐用性增强，已有15。3TB2。5英寸SSDIT之家9月12日消息本周十铨在其官网播客发表文章，对目前的NAND闪存技术进行科普。官方表示，现有的已量产技术中，最高密度的是QLC，即每个存储单元（Cell）可记录4个位（bi英韧推出IG5220IG5221SSD主控12nm工艺，读取最高7GBsIT之家9月12日消息根据TomsHardware消息，英韧（InnoGrit）于9月9日推出了两款PCIe4。04NVMeSSD主控，型号分别为IG5220IG5221。这两款主十铨推出TCREATECLASSIC雷电3移动固态硬盘，速度2700MBsIT之家9月12日消息根据外媒消息，存储厂商十铨（TEAMGROUP）于9月10推出了两款新产品，其中包含TCREATECLASSIC雷电3移动固态硬盘。这款产品内置一条PCIeG海盗船发布MP600PROXTPCIe4。0SSD写入速度6800MBs，最大4TBIT之家9月9日消息海盗今日发布了MP600PROXT固态硬盘。该产品自带大尺寸散热片，M。22280规格，使用PCIe4。0接口。硬盘提供1TB2TB4TB容量可选，读写性能达到金士顿发布XS2000移动固态硬盘读写速度2GBs，仅U盘大小IT之家9月8日消息金士顿于9月7日推出了一款名为XS2000的移动固态硬盘。该产品采用铝制外壳，包含橡胶保护套，读写速度均可达到2000MBs，最大容量2TB。XS2000便携式英特尔CEOAMD的时代已经结束，苹果想赢也没那么容易IT之家10月5日消息随着Windows11正式版的到来，预计英特尔也将开始发售其12代CPU，而此前微星方面确认，英特尔AlderLakeS将于11月4日上市。英特尔对于Alde谷歌云推出全新N2虚拟机搭载第三代英特尔至强可扩展处理器IT之家10月4日消息近日，谷歌云宣布即将发布搭载第三代英特尔至强可扩展处理器（代号为IceLake）的计算引擎N2机器系列公测版。据介绍，N2虚拟机可针对网络和应用程序服务企业应