范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

寒武纪官方详解云端AI芯片思元370采用新一代智能处理器架构MLUarch03

  IT之家 11 月 3 日消息,今天,寒武纪发布第三代云端 AI 芯片思元 370、基于思元 370 的两款加速卡 MLU370-S4 和 MLU370-X4、全新升级的 Cambricon Neuware 软件栈。
  ▲ 寒武纪第三代云端 AI 芯片思元 370
  IT之家获悉,基于 7nm 制程工艺,思元 370 是寒武纪首款采用 chiplet(芯粒)技术的 AI 芯片,集成了 390 亿个晶体管,最大算力高达 256TOPS (INT8),是寒武纪第二代产品思元 270 算力的 2 倍。
  凭借寒武纪最新智能芯片架构 MLUarch03,相较于峰值算力的提升,思元 370 实测性能表现更为优秀:以 ResNet-50 为例,MLU370-S4 加速卡(半高半长)实测性能为同尺寸主流 GPU 的 2 倍;MLU370-X4 加速卡(全高全长)实测性能与同尺寸主流 GPU 相当,能效则大幅领先。
  ▲ 寒武纪 MLU370-S4(左)与 MLU370-X4 加速卡
  思元 370 也是国内第一颗支持 LPDDR5 内存的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。
  同时,寒武纪全新升级了 Cambricon Neuware 软件栈,新增推理加速引擎 MagicMind,实现训推一体,显著提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
  寒武纪发布了新一代智能处理器架构 MLUarch03,拥有新一代张量运算单元,内置 Supercharger 模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代 MLUarch02 的 2 倍、片上共享缓存容量最高是 MLUarch02 的 2.75 倍;推出全新 MLUv03 指令集,更完备,更高效且向前兼容。
  ▲ Supercharger 和多算子硬件融合技术
  有 7nm 先进工艺和全新 MLUarch03 架构的加持,思元 370 芯片算力最高可达 256TOPS (INT8),是上一代产品思元 270 算力的 2 倍。相较于峰值算力的提升,思元 370 在实测性能和能效方面的表现更为优秀:以 ResNet-50 为例,MLU370-S4 加速卡(半高半长)实测性能为同尺寸主流 GPU 的 2 倍;MLU370-X4 加速卡(全高全长)实测性能与同尺寸主流 GPU 相当,能效则大幅领先。
  ▲ 7nm 先进工艺和全新 MLUarch03 架构加持,
  思元 370 实测性能和实测能效超市场主流 GPU 产品
  * 测试环境:
  MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
  MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
  GPU 数据:ResNet-50 来自于相关产品官网,Transformer、VGG16、YOLOv3 均取自实测最大吞吐性能。
  思元 370 全面加强了 FP16、BF16 以及 FP32 的浮点算力,同时支持推理和训练任务。此外,思元 370 还是国内第一颗支持 LPDDR5 的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。
  ▲ 寒武纪智能芯片架构演进
  思元 370 采用 chiplet(芯粒)技术,在一颗芯片中封装 2 颗 AI 计算芯粒(MLU-Die),每一个 MLU-Die 具备独立的 AI 计算单元、内存、IO 以及 MLU-Fabric 控制和接口,通过 MLU-Fabric 保证两个 MLU-Die 间的高速通讯,可以通过不同 MLU-Die 组合规格多样化的产品,为用户提供适用不同场景的高性价比 AI 芯片。
  ▲ 思元 370 采用 chiplet 技术,可实现不同算力、内存和编解码器的组合
  MLU-Fabric 是实现芯粒技术的关键所在。它为两个 MLU-Die 提供低功耗、低延时和超高带宽的互联,支持芯片上实现统一的内存获取和地址映射,创建虚拟通路避免进程死锁,支持数据校验错误发生时进行数据重传,保证数据准确性。
  得益于芯粒技术,思元 370 可通过不同的组合为客户提供更多样化的产品选择,此次寒武纪发布了两款加速卡,未来还将推出更多基于思元 370 的产品。
  MagicMind 是寒武纪全新打造的推理加速引擎,也是业界首个基于 MLIR 图编译技术达到商业化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、自动后端代码生成及优化。在 MLU、GPU、CPU 训练好的算法模型上,借助 MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。
  MagicMind 的优势不仅在于可以提供极致的性能、可靠的精度以及简洁的编程接口,让用户能够专注于业务本身,无需理解芯片更多底层细节就可实现模型的快速高效部署,MagicMind 插件化的设计还可以满足在性能或功能上追求差异化竞争力的客户需求。
  ▲ 推理加速引擎 MagicMind 是寒武纪软件栈 Cambricon Neuware 全新升级的重要组成部分
  为了加快用户端到端业务落地的速度,减少模型训练研发到模型部署之间的繁琐流程,寒武纪的统一基础软件平台 Cambricon Neuware 整合了训练和推理的全部底层软件栈,包括底层驱动、运行时库、算子库以及工具链等,将 MagicMind 和深度学习框架 Tensorflow,Pytorch 深度融合,实现训推一体。依托于训推一体,在寒武纪全系列计算平台上,从云端到边缘端,用户均可以无缝地完成从模型训练到推理部署的全部流程,进行灵活的训练推理业务混布和潮汐式的业务切换,可快速响应业务变化,提升算力利用率,降低运营成本。
  在通用性方面,Cambricon Neuware 支持 FP32、FP16 混合精度、BF16 和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉、语音、自然语言处理和搜索推荐等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。
  全新推理加速引擎 MagicMind 和训推一体特性,将为用户带来更为便捷、高效的开发体验,大幅降低学习成本、开发成本和运营成本。
  思元 370 升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂、更繁重、低延时要求的计算机视觉任务。
  解码方面,思元 370 集成了强大的媒体性能,可支持 132 路 1080p 视频解码或 10 路 8K 视频解码。编码方面,全新编码器通过灵活的码率优化(RDO)控制、多参考帧、二次编码等特性组合,在相同图像质量(全高清视频 PSNR)的情况下比上一代产品节省 42% 带宽,有效降低带宽成本。
  ▲ 思元 370 视频编码质量显著提升
  * 测试环境:
  MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz
  MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz
  视频内容:BQTerrace_1920x1080_60.yuv
  寒武纪高在思元 370 芯片内置安全模块,切实保障用户信息安全。思元 370 是寒武纪第一颗支持国内外主流加密标准的云端芯片,支持用户数据、深度学习模型的加解密以及计算结果的加密输出,通过信任根的方式,保障 AI 芯片在启动及运行过程中加载的所有代码的安全性,还支持远程认证,用户可在业务运行过程中远程验证 AI 环境安全性。通过多方面的安全特性,思元 370 系列产品将更好地确保用户 AI 业务安全。
  ▲ 安全启动验证过程
  此次发布中,两款基于思元 370 的加速卡正式亮相:高密度、半高半长、功耗 75W 的 MLU370-S4 智能加速卡和高性能、全高全长、功耗 150W 的 MLU370-X4 智能加速卡。与上一代产品相比,370 系列加速卡在性能、能效方面都有更为卓越的表现。例如,对标准 ResNet-50v1 进行软件定制优化后,MLU370-X4 加速卡性能高达 30204fps。
  ▲ 寒武纪 MLU370-S4 加速卡
  在 Cambricon Neuware SDK 上实测,在常用的 4 个深度学习网络模型上,MLU370-S4 加速卡的性能平均接近市场主流 70W GPU 的 2 倍。而在能效方面,MLU370-S4 优势更为明显,处理相同 AI 任务相较于 70W GPU 用电量减少 50% 以上,将有力地帮助用户实现"双碳"目标。
  ▲ 相比主流同尺寸 GPU 产品,
  MLU370-S4 加速卡性能优势明显
  * 测试环境:
  MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
  GPU 数据来自于相关产品官网。
  MLU370-S4 加速卡在解码方面具有强劲竞争力,相较于同尺寸 GPU,可提供 3 倍的解码能力和 1.5 倍的编码能力。总体而言,MLU370-S4 加速卡的能效出色,体积小巧,可在服务器中实现高密度部署。
  ▲ 寒武纪 MLU370-X4 加速卡
  MLU370-X4 加速卡的优势则表现为高性能,算力可达 256TOPS (INT8),加强了 FP16、FP32 的计算性能,新增 BF16 计算类型。
  在 Cambricon Neuware SDK 上实测,常用的 4 个深度学习网络模型中,MLU370-X4 加速卡与市场主流 150W GPU 相比,性能表现 2 项持平 2 项更优,实测能效则为 GPU 的 2 倍。比如 YOLOv3 网络中,MLU370-X4 的性能是 150W GPU 性能的 1.5 倍,能效为 GPU 的 2.5 倍。
  ▲ 相比主流 GPU 产品,MLU370-X4 性能领先
  * 测试环境:
  MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
  GPU 数据:ResNet-50 来自于相关产品官网,Transformer、VGG16、YOLOv3 均取自实测最大吞吐性能。
  ▲ MLU370-S4、MLU370-X4 加速卡规格

英伟达的股价暴跌,该给老黄一个警钟了2018年对于老黄来说,一切似乎是美好的,10系显卡在市场上的战无不胜让NV整个公司上下都充满信心,而不断暗示着的新显卡也让苦等2年的消费者充满着期待,尽管新显卡从年初的CES一直神秘消失后,RTX2080Ti重新上架英伟达官网IT之家11月19日消息据外媒消息,日前英伟达今年新推出的旗舰显卡RTX2080Ti突然在美国官网上神秘消失。此前有消息显示,英伟达GeForce论坛上的官方人员表示,有一些存在缺GTX2060何时到来?外媒称英伟达需两个季度清理1060库存IT之家11月19日消息根据外媒overclock3d的报道,不要指望很快就能看到中档图灵GPU,因为Nvidia在出售多余的GTX1060库存时遇到了麻烦,这表明至少除本季度外,GPUZ2。15。0正式版发布支持RX590和英特尔新一代核显IT之家11月18日消息外媒TechPowerUp今天发布了最新版本2。15。0的GPUZ,新增对AMDRadeonRX590GPU的支持。此外,GPUZ2。15。0增加了对英特尔迪兰DEVILRX590开卖1999元,送210元战网点卡IT之家11月17日消息迪兰(Dataland)DEVILRX590现已在京东开卖,这款显卡拥有8GGDDR5显存,频率为15451576MHz,售价1999元,还赠送送210元战联想刃90003代京东开启预约I99900K搭配RTX2080IT之家10月10日消息联想拯救者刃90003代吃鸡游戏台式电脑主机现已在京东开启预约,这款PC搭载了最新的I99900K和RTX20808G显卡,当然售价也不便宜,预约价1849联想YOGA7Pro(C930)京东预约11888元起IT之家10月9日消息不久前联想发布了YOGA7Pro(C930)笔记本,这款产品搭载了杜比视界杜比全景声音响系统,还内置了4096级压感手写笔。目前,这款产品已在京东开启预约,1IT之家评测室荣耀8X上手体验麒麟710千元机,也是悦目大屏机荣耀手机9月发布了新一代的千元级全面屏手机荣耀8X荣耀8XMax,其中荣耀8X是一款搭载6。5英寸屏幕比例19。59分辨率为2280x1080,屏占比为91的手机,售价1399元起荣耀平板5官宣搭载双扬声器,哈曼卡顿调音Histen5。0IT之家10月8日消息今天上午荣耀手机官方微博宣布了最新的平板产品荣耀平板5,新品搭载了双扬声器,并且拥有哈曼卡顿调音Histen5。0,将在10月11日发布。官方放出的海报并没有传言称AMD将在10月中旬发布RX570Refresh版本12nm工艺,Polaris30核心IT之家10月9日消息根据HKEPC的消息,消息人士透露,AIB合作伙伴确认最新的AMDPolaris30GPU显卡将于10月中旬发布,12nm工艺,首张发布的将是RadeonRX英特尔OpenCV库支持Vulkan要与英伟达争抢独立显卡市场?IT之家10月1日消息据外媒Phoronix获得的消息,目测英特尔正准备与NVIDIA竞争,为通用GPU计算(GPGPU)的CUDA寻找替代方案,因为他们发现英特尔正在对其Open
AMD三款加强版CPU参数曝光R93900XT最高可达4。8GHzIT之家5月25日消息根据外媒Wccftech的消息,AMD将在6月推出三款MatisseRefreshCPU,型号分别是R93900XTR73800XT和R53600XT。现在,更新曝AMD6月推R73750X3850X,有望升级到10核更新外媒Wccftech的消息确认AMD将推出R93900XTR73800XT和R53600XT,核心数目不变,频率更高。IT之家5月23日消息根据外媒VideoCardz的消息,小米有品开卖英特尔AMD处理器可选7nm锐龙和10代酷睿感谢IT之家网友孟孟的安安的线索投递!IT之家5月21日消息小米有品上架了英特尔和AMD的最新款CPU,十代酷睿i510400F售价1399元,R33100售价899元。IT之家注AMDR93900XTR73800XTR53600XT提前现身国外零售商店IT之家6月1日消息据外媒techpoweru消息,尚未面市的AMDRyzen93900XTRyzen73800XT和Ryzen53600XT桌面处理器已经出现在法国零售商Mate联想小新Air142020笔记本续航可达10小时,支持USBCPD3。0充电IT之家1月28日消息不久前,联想公布了小新Air142020款,外观方面升级四边窄边框,砍掉了圆孔充电,升级为更加现代的USBC接口。今天,联想表示小新Air142020款将拥有华为儿童手表3Pro超能版发布九重AI定位畅连视频通话,988元IT之家4月23日消息在4月23日国内nova7系列新品发布会上,华为推出了华为儿童手表3Pro超能版,支持九重AI定位,实现多设备畅连,配置1GB8GB大内存,售价988元。IT华为路由Q2S发布凌霄双核CPU,子母套装499元IT之家4月23日消息在今晚的华为nova7系列的发布会上,华为推出了Q2S子母路由,搭载凌霄双核CPU,子母套装499元。IT之家了解到,华为Q2S子母路由支持1拖15,官方称可索尼在中国推出首款自动声向追踪麦克风MASA100IT之家4月8日消息索尼中国今日表示,向国内市场推出首款自动声向追踪麦克风MASA100(简称索尼IPMIC)。这一产品是索尼推出的新品类,支持波束成形语音拾取语音增强和录制双通道掌握10种气味!没有鼻子的计算机芯片有嗅觉是什么情况?近日,英特尔研究院和康奈尔大学于自然机器智能杂志共同发表一篇论文,探讨了神经计算用于辨别爆炸物和毒品等气味。据了解,英特尔神经拟态测试芯片Loihi展示了学习并识别10种有害化学物Steam同时在线人数再破记录,峰值突破2300万感谢IT之家网友BlueWF的线索投递!IT之家3月29日消息在新冠肺炎疫情期间,Steam同时在线人数接连打破记录,3月29日的峰值已经突破了2300万。截至发稿时,Steam同IT之家评测室苹果全新Powerbeats耳机体验易用性高,无主动降噪苹果在2016年用Airpods点燃了分体式蓝牙无线耳机市场,如今走在街上,可以看到很多人耳朵上多了一抹白色,几乎成为一种时尚的标志。当然,不说时尚的问题,Airpods这样的分体