3nm RTX 5090首曝:性能成倍提升 4090无地自容

如题所述

第1个回答  2024-08-14
RTX 40系显卡的家族阵容正越发齐整,是时候前瞻下RTX 50系了。

实际上,早在去年12月,就有坊间传言NVIDIA正在验证RTX 50系原型样卡,GPU芯片代号Blackwell。

日前,爆料大神RedGamingTech抢先分享了RTX 50系显卡或者说Blackwell GPU的部分细节。

他指出,新一代游戏显卡(如GB102)依然是单GPU芯片设计,单服务器/数据中心产品则会采用MCM多芯片互联。

规格方面,基于GB102的RTX 5090包含144组SM单元,也就是18432个CUDA(假设每组SM还是128个CUDA),比RTX 4090多出12.5%,96MB二级缓存,匹配GDDR7显存(384bit位宽),支持PCIe 5.0 x16。

得益于台积电专门为NVIDIA定制的3nm工艺,RTX 50系的整体能效进一步改善,核心频率超3GHz,性能有望达到RTX 40系的2~2.6倍。

这几年,NVIDIA不仅在游戏卡领域“横行霸道”,专业领域更是没有敌手。

AI时代最大赢家是谁?毫无疑问是黄仁勋的NVIDIA。

布局早,技术强,根本找不到对手,“躺着”就可以挣大钱了。

现在,NVIDIA又公布了最新一代Hopper H100计算卡在MLPerf AI测试中创造的新纪录。

Hopper H100早在2022年3月就发布了,GH100 GPU核心,台积电4nm工艺,800亿晶体管,814平方毫米面积。

它集成18432个CUDA核心、576个Tensor核心、60MB二级缓存,搭配6144-bit位宽的六颗HBM3/HBM2e高带宽内存,支持第四代NVLink、PCIe 5.0总线。

相比于ChatGPT等目前普遍使用的A100,H100的理论性能提升了足足6倍。

不过直到最近,H100才开始大规模量产,微软、谷歌、甲骨文等云计算服务已开始批量部署。

MLPerf Inference是测试AI推理性能的行业通行标准,最新版本v3.0,也是这个工具诞生以来的第七个大版本更新。

对比半年前的2.1版本,NVIDIA H100的性能在不同测试项目中提升了7-54%不等,其中进步最大的是RetinaNet全卷积神经网络测试,3D U-Net医疗成像网络测试也能提升31%。

对比A100,跨代提升更是惊人,无延迟离线测试的变化幅度少则1.8倍,多则可达4.5倍,延迟服务器测试少则超过1.7倍,多则也能接近4倍。

其中,DLRM、BERT训练模型的提升最为显著。

NVIDIA还颇为羞辱性地列上了Intel最新数据中心处理器旗舰至强铂金8480+的成绩,虽然有56个核心,但毕竟术业有专攻,让通用处理器跑AI训练实在有点为难,可怜的分数不值一提,BERT 99.9%甚至都无法运行,而这正是NVIDIA H100的最强项。

此外,NVIDIA还第一次公布了L4 GPU的性能。

它基于最新的Ada架构,只有Tensor张量核心,支持FP8浮点计算,主要用于AI推理,也支持AI视频编码加速。

对比上代T4,L4的性能可加速2.2-3.1倍之多,最关键的是它功耗只有72W,再加上单槽半高造型设计,可谓小巧彪悍。

几乎所有的大型云服务供应商都部署了T4,升级到L4只是时间问题,Google就已经开始内测。

ChatGPT这样的生成式AI不仅需要千亿级的大模型,同时还需要有庞大的算力基础,训练AI现在主要依赖NVIDIA的AI加速卡,达到ChatGPT这种级别的至少需要1万张A100加速卡。

NVIDIA A100核心及计算卡是2020年5月份发布的,也是安培架构的第一款产品,7nm工艺制造,542亿个晶体管,826平方毫米面积,8196个流处理器,实际开启6912个,搭配5120-bit 40GB HBM2显存,PCIe版本功耗250W。

A100的单精度浮点性能高达19.5TFlops,FP64性能9.7TFLOPS,INT8性能624TOPS,TDP 400W,显存的带宽也是恐怖的1.6TB/s,后期还发布过80GB HBM2e的版本,频率从2.4Gbps提升到3.2Gbps,使得带宽从1.6TB/s提升到2TB/s。
相似回答
大家正在搜