5月26日, 英伟达最急件处理等级(SHR)的芯片订单大量涌入台积电,直接将台积电5nm产能利用率推至满负荷。

据悉,英伟达的急单包括H100、A100、H800、A800等AI GPU,要知道,之前只有苹果的芯片会下急单,如今英伟达的大量订单突然涌入,让台积电又急又喜。
2023年初,ChatGPT爆火带动了AI芯片的快速需求,英伟达也站上了风口浪尖,一时间风光无两。
然而,尴尬的是国产AI芯片并没有搭上这趟快车,研发、设计、制造远落后于英伟达。国内企业为了发展AI产业,甚至被迫购买“残血版”英伟达芯片。
那么问题来了,英伟达到底有多牛?国产AI芯片真的会颗粒无收吗?
GPU领导者英伟达有多牛?
现在英伟达有多牛?

最直观的市值对比:英伟达市值达到了9632亿美元(约合68054亿人民币),相当于贵州茅台(2.12万亿),+工商银行(1.71万亿)+中国移动(2万亿)+宁德时代(9672亿)。
力压英特尔、台积电、三星,成为“最贵”的芯片企业。
市场份额方面:在独立显卡市场占据了88%的市场份额,在AI 数据中心GPU领域控制着90%的市场,在全球AI市场领域,英伟达占据了超过80%的市场份额。
可以说,在人工智能快速发展的今天,市场上根本离不开英伟达。
应用场景方面:英伟达的GPU已经大量应用在人工智能、超算、量子加速、自动驾驶、互联网、光刻技术等多个领域。
可以想象,未来英伟达GPU的应用领域还会继续扩大,并逐渐影响各行各业,包括你我他。
我们具体来看看英伟达的AI 芯片有多厉害吧!
2023年3月21日,英伟达召开GTC开发者大会,黄仁勋用76分钟介绍了公司多款最新产品,具体包括:
每月3.7万美元,就可以训练自己的ChatGPT

每一家企业都应该有自己的AI大模型,没有怎么办呢?那就使用开放的ChatGPT,然后再进行训练。
考虑到训练ChatGPT需要消耗大量的算力,而普通企业不能研发,也买不起新进的GPU,怎么办呢?
英伟达提供了AI 云服务DGX Cloud,它包含8个A100芯片,完全可以在云端训练ChatGPT,任何企业只要缴纳月租费(3.7万美元),就可以实现。
如此一来,企业就可以采用租赁的方式,介入人工智能大模型,快速开展相关业务,而无需等待计算资源。
为生成式AI提供算力

生成式AI可以让机器,通过算法生成文本、图片、视频等内容,它可以是特定的新闻稿、广告语、电商详情页等。
因为其增加了图片、视频的训练,因此深受人们的喜爱。
为此英伟达推出了L4服务平台,该平台在视频解码、视频编码、视频生成方面更具优势。根据测算L4比传统CPU性能提高了120倍,并且降低了99%的电力消耗。
同时推出了L40平台,专门用于 2D/3D 图像生成。
试想一下,研发一款专用于自媒体的AI,它可以制作视频、构思文章、合成图片,效率提升10倍、百倍,每天2小时,轻松写出10篇文章,多么炫酷。
助力芯片研发

此外,英伟达还发布了一个用2nm制造的突破性计算光刻技术——NVIDIA cuLitho计算光刻库。
芯片在设计和制造环节需要大量的计算,随着芯片制程的变小,晶体管数量的增加,传统的CPU计算方法越来越耗时。
而采用英伟达的GPU方案可以将计算速度提升40倍,大大提高了芯片设计和制造的速度。
例如,两周才能制造好的掩膜版,可以缩短至8小时。
这个方案已经吸引了包括台积电、新思科技、ASML在内的芯片产业链巨头。
一场76分钟的发布会,英伟达就发布了如此强大的产品,任何一项拿出来就够其他芯片企业追十几年了,一口气拿出几个,恐怕也只有英伟达了。
英伟达能够取得如此傲人的成绩,归根结底就是掌握了强大的“算力”。

AI时代,算力为王,随着数字经济和人工智能快速的发展,未来算力就是经济的基石。
根据IDC研究报告: 算力每提高1点,国家的数字经济和GDP将增加3.5%和1.8%。
如今,算力芯片的话语权掌握在英伟达手中,根据公开资料全球前500的超算,70%使用了英伟达的GPU,最新超算使用比例达到了90%。而AI大模型更是离不开英伟达。
为此黄仁勋表示:过去十年,摩尔定律的性能提升了100倍,而英伟达的GPU性能提升了100万倍,未来十年摩尔定律会失效,但自己的“黄氏定律”不会失效。
按照“黄氏定律”,未来十年,英伟达可以让人工智能的性能提升100万倍,让人工智能真正地觉醒。
老黄敢如此吹,就得益于强大的H100芯片。

H100采用了Hopper架构,台积电4nm制造工艺,拥有18432个CUDA核心、576个Tensor核心、60MB二级缓存。
这款GPU集成了800亿个晶体管,算力达到了2000 TFLOPS,比上一代A100算力提升了3.2倍,整体性能提升了6倍。

H100可以进行动态加速,优化路径,这种状态下,算力将提升7倍。
在数据吞吐方面,H100同样非常强大,可实现3TB/s 的显存带宽,5TB/s的互联网速度。
H100还有一个特点,就是拆分GPU,一个单元拆分为7个,同时进行不同的运算任务,并且可以将单个单元性能提升7倍。
它的售价达到了24万人民币,抵得上一款不错的轿车了。但对于专业用户来说,这个价格不亏,毕竟数量有限,先到先得啊!
凭借强大的GPU,英伟达的未来充满希望。

过去几十年,芯片属于英特尔,而未来几十年则属于英伟达。黄仁勋也宣布:AI 的 iPhone 时刻已经来临!因为有了英伟达。
国产AI芯片发展如何?

百度、华为、360、腾讯等国内企业快速的切入AI领域,纷纷宣布研发AI大模型,但是AI基础是算力芯片,没有算力芯片,哪怕是华为也翻不起浪啊!
令人欣慰的是,国产AI芯片厂商也在积极搞研发,例如:景嘉微、寒武纪、壁仞科技、燧原科技、瀚博半导体等。
景嘉微的AI芯片主要应用在军事、工业领域,大模型方面尚未介入,原因无外乎算力不足。
寒武纪研发的芯片,华为都看不上,其实力可想而知。
国产AI芯片真正有实力,能与英伟达H100一较高低的唯有壁仞科技。

在2022年世界人工智能大会上,上海壁仞科技的BR100系列,成为国内AI芯片的代表作。
其中BR100采用了台积电7nm工艺,单芯片峰值算力达到了千万亿次浮点运算,打破多项GPU算力纪录,甚至可以与英伟达的H100相媲美。
网上有博主将BR100与H100进行了比较:
英伟达H100采用了台积电4nm工艺,集成了800亿晶体管,16位浮点算力达到1000T、8位定点算力达到2000T,在稀疏模式下算力可以实现翻倍。
BR100芯片16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别。可以看出,BR100对比H100也毫不逊色。
当然,算力对比只是一方面,真正使用起来才能见分晓。毕竟还要考虑AI性能、显存带宽、互连通信速度、功耗和生态等。
但是,直到今天都没有见到哪个大模型应用几百个BR100,因此真正的对比尚未开始。

为此,我搜索了壁仞科技,发现这是一家初创公司,公司员工不多,但有多位来自其他企业的技术大牛。
焦国方,拥有30多年的GPU技术经验,先后就职于华为和高通,在华为负责鸿蒙OS图形图像处理和UI系统框架;在高通任首席骁龙GPU架构师,帮助高通完成了5代GPU研发与创新。
洪洲,20多年GPU架构设计经验,曾就职于英伟达、兆芯和华为,在英伟达负责Tesla架构和性能调优、CUDA架构开发。在华为负责海思GPU芯片研发。
唐杉,多年芯片设计研发经验,曾在新思科技担任AI芯片架构师,新思科技是全球最强的EDA工具公司。
张凌岚,从事半导体行业前沿20年,曾任职于海光、三星以及 AMD,担任 GPU SOC 架构方面的工作。
李新荣,前AMD全球副总裁、中国研发中心总经理,在芯片产品设计端具有丰富的经验。
徐凌杰,曾任职阿里云计算部门、三星、AMD 以及英伟达。
可以看出,壁仞科技在人才储备方面具有很强的优势,但是规模和数量与英伟达差距巨大。

英伟达的研发人员已经突破2万,而且快速增长的英伟达可以拿出更多的资金招聘、留住更多的GPU人才。
此外,这些从英伟达、AMD、高通过来的工程师,有没有可能会在研发过程中“侵犯专利”,重演当年的“中芯国际、台积电诉讼事件”?
还有关键的一点, 就是制造端 。

目前内地中芯国际的制造水平仅为12nm,而壁仞科技的芯片已经到了7nm阶段,未来还要向5nm、4nm进军,如果性能提升威胁到英伟达,会不会上演“华为事件”?
所以,国产AI芯片能够设计好只能算迈出了第一步,大规模量产和应用更关键。
写到最后
AI 已经到来,英伟达凭借强大研发能力牢牢把控着算力市场,加上台积电独一无二的制造能力,真的是要所向无敌。
内地AI芯片厂商在研发上落后英伟达,在制造环节落后台积电,真的要颗粒无收吗?
未来“壁仞科技+中芯国际”能否在AI芯片领域实现突围?
我是科技铭程,欢迎共同讨论!