木桶效应：H200证明HBM比台积电更重要

TAG标签| 网站地图| 收藏本站

返回首页

木桶效应：H200证明HBM比台积电更重要

最后编辑时间：2023-11-21 07:41:16 来源：未知作者：未知阅读量：未知

　　H200充分证明了就算不添加更多CUDA核或超频，只增加更多的HBM和更快的IO，即便保持现有Hopper架构不变，英伟达依然可以实现相当于架构代际升级的性能提升。这么简单为什么不直接做？HBM太贵了，贵到超过了GPU本身的die cost（只算代工BOM），提升HBM就意味着牺牲毛利，把毛利出让给海力士。作为AMD或者Intel毛利率40%的选手double HBM比割肉还疼，但作为只看晶圆成本毛利率几乎90%的英伟达，面对一个严重供不应求的市场，且具有提价pass through能力（不是可能，是一定会），提升HBM是顺理成章。尤其是AMD将在12月6日发布“Antares”系列GPU，以及Instinct MI300X的192GB HBM3，以及对标Grace Hopper的MI300A拥有128GB HBM3（这些都超过了H100的HBM量），英伟达这次的突然发布有点像对此的回应。从另一个角度，不得不令人怀疑，之前鼓吹算力、核数，多少有营销的成分，之前如此高的算力实际上都没有被充分利用，因为可怜的显存数量和IO带宽是瘸掉的两条腿，你上臂摆得再快，也跑不动啊！如果你再想想英伟达依旧巨高的毛利率，以及2-3万美金的价格，可以买多少HBM？大概大几百GB？。没办法，说白了这是英伟达有“能力”选择留给自己的利润。谁让你离不了CUDA呢？你不配拥有这么多HBM！从这个角度，巨头定制ASIC真的有非常非常强的动力，不仅仅是节省cost了，我可以获得更强大的内存和IO，以及（如果软件适配和通用性解决的话）更强大的性能。当然，后者可能比较难实现...从这个角度，HBM甚至比台积电的制程更重要，耗费巨额资金研发调试跑通扩产出来的3nm以及未来的GAA，对GPU的提升又是老掉牙的20%30%，这种速度哪跟得上AI的速度？而HBM只要成本实现快速降低、更紧密的堆迭、更快的IO，对GPU性能的推动却是几何数级别的。想到这里我自己都觉得好有趣啊，往往你觉得最难的事情反而价值不是最大！而你最不起眼的事情，可能惊奇地发现是关键。再回到英伟达昨天一起发的这张图，H200相比H100的性能提升，真就与HBM的提升（volume+speed）比例几乎一致。此外短短3年推理的性能提升了18倍非常惊人。最后，可以预测下B100的spec了，会不会是256甚至512GB的HBM+10TB/s的带宽，而与之对应的价格（合理假设英伟达决定保持毛利率不变）可能要到6-9万美金。

　　H200是英伟达H100的升级版。与过往GPU升级主要都在架构提升上不同，H200与H100都基于Hopper架构。在同架构之下，H200的浮点运算速率基本上和H100相同。而其主要升级点转向了内存容量和带宽。具体包括141GB的HBM3e内存，比上一代提升80%，显存带宽从H100的3.35TB/s增加到了4.8TB/s，提升40%。然而，在大模型推理表现上，其提升却极其明显。H200在700亿参数的Llama2大模型上的推理速度比H100快了一倍，而且在推理能耗上H200相比H100直接降低了一半。对于显存密集型HPC（高性能计算）应用，H200更高的显存带宽能够确保高效地访问数据，与CPU相比，获得结果的时间最多可提升110倍。因为框架未有改变，H200与H100有着完全的兼容性。这意味着已经使用先前模型进行训练的AI公司将无须更改其服务器系统或软件即可使用新版本。为什么英伟达突然不卷频率，卷起内存了呢？网页链接

　　LoMaRe开发压磁RAM（PMRAM）磁阻RAM是一种新的有前途的计算机内存技术。由于几个原因，MRAM有可能成为通用存储器解决方案。特别是，它提供了高速和几乎无限的可靠性，静态RAM（SRAM）等低延迟，以及高密度和电源效率。与传统闪存一样，它是非易失性的。此外，它能够抵抗极端温度和辐射。英国初创公司LoMaRe开发了一种正在申请专利的压磁RAM技术。与当前最先进的MRAM相比，它具有许多优势，包括与闪存相比，功耗至少降低25.000倍，耐用性更高，并允许在高温下运行。这家初创公司的解决方案在汽车、物联网（IoT）和计算领域找到了应用。

　　报告期内,公司聚焦核心技术持续构建和完善知识产权体系,新增专利授权20项,其中授权发明专利5项;新增专利申请44项,其中发明专利23项。截止报告期末,公司拥有有效专利272项,其中授权发明专利54项。公司已连续两届入选全球氢能产业发明专利排行榜(前100名)。公司投资的磁存储芯片(PMRAM)在读写次数、读写速度、低功耗以及材料制造工艺光刻工艺等都有突破性进展,目前芯片已在代工厂进行流片永安行

　　转自@再现荣耀先聊一下英伟达 H200：H200充分证明了就算不添加更多CUDA核或超频，只增加更多的HBM和更快的IO，即便保持现有Hopper架构不变，英伟达依然可以实现相当于架构代际升级的性能提升。这么简单为什么不直接做？HBM太贵了，贵到超过了GPU本身的die cost（只算代工BOM），提升HBM就...

(责任编辑：管理)

上一篇：规范衍生品市场发展新规建立系统监管机制
下一篇：浙江省经济和信息化厅绍兴市及柯桥区有关单位领导

随机内容