木桶效应:H200证明HBM比台积电更重要

最后编辑时间:2023-11-21 07:41:16 来源:未知 作者:未知 阅读量: 未知

  H200充分证明了就算不添加更多CUDA核或超频,只增加更多的HBM和更快的IO,即便保持现有Hopper架构不变,英伟达依然可以实现相当于架构代际升级的性能提升。这么简单为什么不直接做?HBM太贵了,贵到超过了GPU本身的die cost(只算代工BOM),提升HBM就意味着牺牲毛利,把毛利出让给海力士。作为AMD或者Intel毛利率40%的选手double HBM比割肉还疼,但作为只看晶圆成本毛利率几乎90%的英伟达,面对一个严重供不应求的市场,且具有提价pass through能力(不是可能,是一定会),提升HBM是顺理成章。尤其是AMD将在12月6日发布“Antares”系列GPU,以及Instinct MI300X的192GB HBM3,以及对标Grace Hopper的MI300A拥有128GB HBM3(这些都超过了H100的HBM量),英伟达这次的突然发布有点像对此的回应。从另一个角度,不得不令人怀疑,之前鼓吹算力、核数,多少有营销的成分,之前如此高的算力实际上都没有被充分利用,因为可怜的显存数量和IO带宽是瘸掉的两条腿,你上臂摆得再快,也跑不动啊!如果你再想想英伟达依旧巨高的毛利率,以及2-3万美金的价格,可以买多少HBM?大概大几百GB?。没办法,说白了这是英伟达有“能力”选择留给自己的利润。谁让你离不了CUDA呢?你不配拥有这么多HBM!从这个角度,巨头定制ASIC真的有非常非常强的动力,不仅仅是节省cost了,我可以获得更强大的内存和IO,以及(如果软件适配和通用性解决的话)更强大的性能。当然,后者可能比较难实现...从这个角度,HBM甚至比台积电的制程更重要,耗费巨额资金研发调试跑通扩产出来的3nm以及未来的GAA,对GPU的提升又是老掉牙的20%30%,这种速度哪跟得上AI的速度?而HBM只要成本实现快速降低、更紧密的堆迭、更快的IO,对GPU性能的推动却是几何数级别的。想到这里我自己都觉得好有趣啊,往往你觉得最难的事情反而价值不是最大!而你最不起眼的事情,可能惊奇地发现是关键。再回到英伟达昨天一起发的这张图,H200相比H100的性能提升,真就与HBM的提升(volume+speed)比例几乎一致。此外短短3年推理的性能提升了18倍非常惊人。最后,可以预测下B100的spec了,会不会是256甚至512GB的HBM+10TB/s的带宽,而与之对应的价格(合理假设英伟达决定保持毛利率不变)可能要到6-9万美金。

  H200是英伟达H100的升级版。与过往GPU升级主要都在架构提升上不同,H200与H100都基于Hopper架构。在同架构之下,H200的浮点运算速率基本上和H100相同。而其主要升级点转向了内存容量和带宽。具体包括141GB的HBM3e内存,比上一代提升80%,显存带宽从H100的3.35TB/s增加到了4.8TB/s,提升40%。然而,在大模型推理表现上,其提升却极其明显。H200在700亿参数的Llama2大模型上的推理速度比H100快了一倍,而且在推理能耗上H200相比H100直接降低了一半。对于显存密集型HPC(高性能计算)应用,H200更高的显存带宽能够确保高效地访问数据,与CPU相比,获得结果的时间最多可提升110倍。因为框架未有改变,H200与H100有着完全的兼容性。这意味着已经使用先前模型进行训练的AI公司将无须更改其服务器系统或软件即可使用新版本。为什么英伟达突然不卷频率,卷起内存了呢?网页链接

  LoMaRe开发压磁RAM(PMRAM)磁阻RAM是一种新的有前途的计算机内存技术。由于几个原因,MRAM有可能成为通用存储器解决方案。特别是,它提供了高速和几乎无限的可靠性,静态RAM(SRAM)等低延迟,以及高密度和电源效率。与传统闪存一样,它是非易失性的。此外,它能够抵抗极端温度和辐射。英国初创公司LoMaRe开发了一种正在申请专利的压磁RAM技术。与当前最先进的MRAM相比,它具有许多优势,包括与闪存相比,功耗至少降低25.000倍,耐用性更高,并允许在高温下运行。这家初创公司的解决方案在汽车、物联网 (IoT) 和计算领域找到了应用。

  报告期内,公司聚焦核心技术持续构建和完善知识产权体系,新增专利授权20项,其中授权发明专利5项;新增专利申请44项,其中发明专利23项。截止报告期末,公司拥有有效专利272项,其中授权发明专利54项。公司已连续两届入选全球氢能产业发明专利排行榜(前100名)。公司投资的磁存储芯片(PMRAM)在读写次数、读写速度、低功耗以及材料制造工艺光刻工艺等都有突破性进展,目前芯片已在代工厂进行流片 永安行

  转自@再现荣耀 先聊一下 英伟达 H200:H200充分证明了就算不添加更多CUDA核或超频,只增加更多的HBM和更快的IO,即便保持现有Hopper架构不变, 英伟达 依然可以实现相当于架构代际升级的性能提升。这么简单为什么不直接做?HBM太贵了,贵到超过了GPU本身的die cost(只算代工BOM),提升HBM就...

(责任编辑:管理)

随机内容