前言
是的,沉寂已久的人工智能时代又回来了。
随之而来的是, 当地时间3月2日,美国商务部以“国家安全”和“外交政策利益”为由将28家中国大陆企业和研究机构列入所谓“实体清单”(Entity List)。一同被列入的还有多个不同国家和地区的实体,包括中国台湾1个,巴基斯坦4个,缅甸3个,俄罗斯和白俄罗斯各1个。
此次被美国列入“实体清单”的中国企业包括浪潮集团(Inspur Group Co.,Ltd.)、龙芯中科(Loongson Technology)、第四范式(4Paradigm Technology Co.,Ltd.)、华大基因研究院(BGI Research)、盛科通信(Suzhou Centec Communications Co.,Ltd.)等。

受该消息影响,A股人工智能相关个股应声大跌,浪潮信息一字跌停。与之形成鲜明对比的是,以Chiplet为首的半导体板块高开,中途大幅震荡,收盘仍保持上扬。股价涨得欢,事实上,我国离自主可控的芯片还有多远?本文将为你解析。
人工智能浪潮的开始
六年前,2017年9月2日,在德国IFA 2017举办期间,华为海思推出采用了 台积电10nm工艺的新一代芯片——麒麟970芯片,全球首款内置独立NPU(神经网络单元)的智能手机AI计算平台。

全球首个内置神经网络的手机SoC——华为麒麟970
自那之后,AI逐渐作为成为了智能手机的主要卖点,各家开始围绕AI开始构建生态,同年,苹果也推出了自家第一款具备神经网络引擎的AI芯片,得名“A11仿生”。

苹果首个仿生芯片——A11 Bionic
后来的数年里,人工智能深入到了我们生活中的方方面面,最能直观感受到的是无处不在的图像识别,例如,手机拍照时的物体识别和自动优化,相册里的人脸识别并自动分类,文字识别(OCR),iOS 16快速抠图,增强现实等等。这些都方便了我们的生活,但并没有从根本上让我们感受到翻天覆地的变化。
追根究底,过去的人工智能给用户的感觉还是一个逻辑很差,可有可无的程序。而ChatGPT,虽然本质上还是个没有真正的智能,但有不少时刻, 我似乎从它身上感受到那么一丝人性,因为他说出了我们想要表达的想法,甚至,他表达得比我们更完美。
ChatGPT爆发后,全球巨头纷纷布局。2月8日凌晨, 微软表示已经将该模型引入了必应搜索和Edge浏览器中。谷歌推出了Bard AI。百度将在3月推出文心一言。

集成了ChatGPT的微软必应搜索引擎
可见的未来,ChatGPT会被引入各行各业中,这已经成为了大家的共识。
我认为,在半导体行业中,ChatGPT的风靡所带动的算力需求,再一次加强了Chiplet的逻辑。
我在与ChatGPT交谈中获得了以下信息:
1. 构建 OpenAI 的 GPT 模型需要大量的计算资源和数据。具体而言,GPT-3 是一个多层的 Transformer 模型,拥有 175 层和超过 10^11 的参数。
2. 模型的训练需要数以千计的 GPU 或 TPU 芯片的运算能力,以及几十个 TB 的硬盘存储空间。根据 OpenAI 的官方数据,GPT-3 的训练耗费了数千万美元的成本,以及数月的时间。
3. 由于GPT-3模型非常庞大,其训练所需的时间和资源是非常巨大的。单单以RTX3090的算力,完成GPT-3模型的训练仍然是非常困难的。必须应用专业加速卡。在实际应用中,OpenAI使用了大量的分布式硬件资源来完成GPT-3的训练。
4. ChatGPT表示,目前市面上高性能的GPU包括Nvidia的A100和Tesla V100,以及AMD的Instinct MI100等。这些GPU都具有高达几千TFLOPS的算力,以及数GB的显存容量,适合用于训练需要大量计算资源的深度学习模型。它虽然不肯公开它使用了那些型号的GPU来训练,但基于前文的GPU和TPU,以及最近的新闻,可以推测可能使用了最先进的 英伟达H100(GPU)和谷歌的张量计算单元(TPU)。
我国发展人工智能面临的难点
这些,美西方国家肯卖给我们吗?
2022年8月, 英伟达和AMD被告知停止向中国出口部分高性能GPU芯片,其中包括英伟达A100芯片、H100芯片以及AMD MI200芯片等多款高性能显卡。
10月,美国对我国出口芯片产品的限制 以算力做划分,4800TOPS以上算力受到限制。 AMD的MI100/MI200和 英伟达的H100都已经暂停向我国出口。英伟达A100暂时逃过一劫。
欧盟内部市场执行委员布雷顿表示:“我们完全同意剥夺中国最先进芯片的策略,我们不能让中国获得最先进的技术。在限制中国获得 微芯片、量子计算和人工智能 等技术方面,欧盟和美国有非常强烈的一致性。”
在国内,由于没有同性能的替代品,几乎所有的云服务提供商和超算都采用 英伟达的芯片来支持其AI计算,包括BAT在内的众多科技公司和科研院所都是英伟达的客户。
国内的ChatGPT,在算法、高质量数据集、算力都还有一定差距,前两者还好,后者算力的基础在于高性能的运算芯片。这部分,从消费电子到5G基站,到ChatGPT,我们一直被老美卡得死死的。
对于人工智能来说,算力的规模极大地影响了模型训练迭代的效率,其中,高性能的计算集群则是形成算力规模的关键。美国对于我国芯片的限制一直是那三点, 一,限制制程发展,不给造先进制程芯片,禁止台积电为我国企业代工。二,限制人才交流,不造你也不能研究。三,算力线以上的高性能芯片不出口中国,无法形成算力规模优势。
总结来说就是,美国首先是限制我国人工智能的发展,最好发展不起来;即使我国发展起来了,迭代进步的速度也不能超过美国,美国必须保持相当的优势。
现在,一场关于算力的AI军备竞赛已经开始了。

英伟达最强算力GPU
近几年,AI 模型的参数正呈指数级增长,参数量从几十上百亿发展到了破万亿。“训练这些巨型模型仍然需要几个月的时间,减少这种训练时间的一个关键是数据中心中的 GPU 质量,” 英伟达产品管理高级总监帕雷什·卡里亚(Paresh Kharya)说,“新的 Hopper 架构将有助于改善这些困难,而且,H100 上的 Transformer 模型的训练速度比上一代芯片快 6 倍。”
可以说,中国能不能诞生出自己的ChatGPT,中文世界的ChatGPT是否能赶上国外的水平,除了高质量的数据集,最重要是看能不能造出自主可控的高性能运算芯片,形成自身的算力优势。
目前,国内壁仞科技推出首款面向云端人工智能(AI)训练及推理的7nm通用GPU算力产品 BR100系列 ,应用了Chiplet,使其旗舰产品的峰值算力超过了 英伟达目前在售的旗舰计算产品A100 GPU的3倍,达到了国际领先水平。不久美国要求台积电禁止代工,后来壁仞据理力争,证明了 BR100 在美国限制线以下,所以仍然可以生产。

国内壁仞科技推出的通用GPU算力产品——BR100
但未来, 英伟达和AMD停止向我国出售最新一代的加速卡已经是板上钉钉,国内无法制造先进制程的加速卡产品,成熟制程即使不够用有必须担起重任。
在此逻辑下,扩大晶体管密度和规模的办法只有一个,那就是在没有严格的功耗限制下拼命叠Chiplet小芯片,与此同时等待国内先进制程的突破,两者配合提高性能。
美国制裁如约而至
在2023年3月3日浪潮信息被美国列入实体清单后,该公司股价一字跌停,市场担忧该公司是否会在相关芯片采购方面受到严重限制。自2013年以来,英特尔牢牢占据着浪潮第一大供应商位置,在服务器、存储、AI解决方案、云服务等多方面,其底层技术均依赖英特尔的CPU。2019年,浪潮信息从英特尔采购的金额达到179亿元,占比达到37.53%。在2021年财报中,浪潮信息隐去了前五大供应商的名称,但从第一大供应商采购的金额仍高达169亿元,占比为23.83%。目前还不清楚本次制裁的具体影响范围。
3月2日,国务院副总理刘鹤2日在北京调研集成电路企业发展并主持召开座谈会。受上述消息影响,3月3日A股市场上自主可控的半导体再次受到关注。其中,Chiplet板块火热,收盘时通富微电涨停,主力资金流入超9亿元。
据悉,国内通富微电和长电科技均已表示,Chiplet工艺已实现量产。另外,华为也曾于2019年发布了数据中心7纳米高性能处理器——鲲鹏920处理器。该处理器由华为自主研发和设计,采用了Chiplet设计,旨在满足数据中心多样性计算、绿色计算的需求。
总结
人工智能时代,一切以芯连接。对于大语言模型来说,迭代的次数很大程度上影响了表达的结果。训练迭代模型是一个冗长的过程,提高该过程关键中的关键就是算力,先进芯片意味着更强的性能,先进制程被卡脖子,算力则被卡脖子,无法形成算力优势。因此,自主可控的高性能计算芯片是未来发展ChatGPT乃至更多元的人工智能的绝对关键。
通过Chiplet将多颗成熟制程芯片封装等效为先进制程的芯片。虽然能耗上不如原本的先进制程芯片,但在美国半导体*锁封**制裁的大背景下,Chiplet将是制造高性能计算芯片的最优解之一,对于我国的半导体发展现状来说也是唯一解。
对于世界而言,在先进制程不断逼近硅基芯片物理极限,摩尔定律放缓甚至失效的大背景下,Chiplet仍然能够延续摩尔定律,并且是解决芯片算力瓶颈的关键,目前相关产品已经陆续推出,未来值得期待!
作者:残夜若白
本文于2023年2月8日首发在雪球平台,完善于3月4日。
本文仅为个人想法,不构成任何投资意见和建议。未经作者本人许可,不允许转载。