平头哥造芯模式,正式跑通

李根 鱼羊 假装发自 西溪

量子位 | 公众号 QbitAI

“生死看淡,不服就干”,平头哥造芯模式,正式跑通。

2022云栖大会现场,新进展再次由阿里云智能总裁 张建锋 对外宣布。

倚天710已大规模应用,成为中国首个云上大规模应用的自研CPU。

在核心应用场景中,算力性价比提升 30% 以上,单位算力功耗(耗电量)降低 60% 以上。

张建锋还宣布,倚天710的部署规模还会进一步扩大,未来两年 20%的新增算力 都将使用 自研CPU

更直白翻译,就是以后阿里云的芯片部署中, 每10颗CPU芯片里就有2颗自研CPU

平头哥造芯模式,正式跑通

这个进展和应用,为何重要?

首先,大规模部署代表着芯片产品获得了 市场检验 ,也意味着 最难的生态一环达成闭环 ——虽然不如新硬件来的“刺激”,但意义和价值却丝毫不逊于新品发布,甚至长远来看,量级简直不能相提并论。

其次,倚天710,作为一款基于 Arm架构的云端CPU ,想要在 x86 占主导地位的 全球云计算和服务器芯片生态 中立足,更是难上加难,目标 十中有二 更是Arm架构在云端里程碑式的新突破。

最后,倚天710的大规模部署,不仅是 中国首个自研CPU的应用纪录 ,还意味着诞生在造芯浪潮中的 平头哥模式 干出来了!

平头哥造芯模式,正式跑通

纵观半导体半个世纪的发展史, 检验造芯模式 的核心关键一以贯之:

  • 造出来(设计和流片)
  • 用得上(需求和性能)
  • 用得好(功耗和成本)
  • 离不开(工具和生态)

而在倚天710的进展中,这四大流程关键,平头哥都(一口气)完成了 实践证明

唯一待解之谜,只剩下造芯模式的 通关速度 ——

传统IT时代的造芯公司和通用芯片,短则5~7年,长则可能10年……

而平头哥的倚天710, 仅仅用了2年

所以这种模式和速度背后,根本原因是什么?

是半导体领域也面临世纪变革?

抑或一个时代果真有一个时代的造芯模式?

平头哥造芯模式,正式跑通

中国首个云端大规模应用的自研CPU

倚天710 ,2021年云栖大会发布,是平头哥造芯以来交出的首款通用型CPU。

单芯片600亿晶体管、128核、主频3.2GHz……首战跑分就超出业内标杆20%,能效比提升50%以上。

主要用于云计算场景,基于Arm v9架构, 首发即刷新了Arm服务器芯片性能纪录

作为通用芯片,需要囊括接收、处理、运算服务器计算机内部所有信息, 是业内公认的设计难度最高的芯片之一

平头哥造芯模式,正式跑通

芯片之难 最根本 还不在于设计和制造,更关键的是 落地和应用 :能够真正让更多人用得上、用得好,以强大的生态拱卫垒砌起护城河。

于是一年之后,平头哥交出重要答卷。

阿里云方面称,经过一年业务验证, 倚天710已规模部署并对外提供服务

具体到应用场景中,在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升30%以上,单位算力功耗(耗电量)降低60%以上。

这种应用实例,有阿里内部的新业务,也有外部客户:比如研究机构,智能手机企业,还有知名互联网公司。

主打数据智能SaaS工具生态的汇量科技就表示,在广告推理中使用倚天710实例后,不仅有效提升了 CPU处理能力和网络带宽 ,成本对比传统实例也降低15-20%,综合性价比提升40%以上。

而阿里集团内部,倚天710则开始支持最核心的 电商业务 ,并且成功在 双11 等峰值流量大考中,经受住了实战检验。

平头哥造芯模式,正式跑通

这种应用和反馈,意外吗?不算意外。

毕竟 性能和参数 ,从设计和成功流片之后,就决定了跑分成绩。

但一款Arm云端CPU能够快速应用于不同场景和服务,适配不同领域的软件和应用, 纯靠硬件之力,办不到

阿里云方面解释,这背后离不开 倚天710、飞天操作系统和CIPU融合 ,首次实现了 芯片、计算架构及操作系统 的协同优化。

而且从造芯启动开始, 算法、软件和生态工具 的相关工作也早已启动,作用到倚天710大规模部署中,实现了全应用生态的适配,甚至 0代码修改即可完成主流业务迁移

平头哥造芯模式,正式跑通

所以对于平头哥造芯, 软件定义硬件、需求定义供给 ,都是已经验证过的定理。但全局思维下的以终为始, 把生态和应用纳入到造芯流程中 ,却是新角度、新方法。

这是对传统芯片研发模式的 根本性变革 ,也暗含 云原生 映射的时代趋势,更能 解释平头哥造芯的模式和速度

倚天710的成功、平头哥模式的跑通,是 云计算定义硬件 的成功,是云计算重塑芯片甚至整个IT硬件体系的证明。

更代表着——IT时代全新的造芯模式开启。

一个时代有一个时代的造芯模式

阿里入局造芯,平头哥不服就干。

气势、速度和交货,三位一体。

平头哥造芯模式,正式跑通

2018年9月 ,整合中天微和达摩院成立旗下芯片公司后, 平头哥半导体 正式推出,放话“生死看淡”。

仅仅1年, 首款处理器产品玄铁910 对外发布,创造RISC-V开源阵营里的最快纪录。

又过1年,还在云栖大会, 首款AI专用芯片含光800 ,一剑霜寒十四州,首发特定场景性能就40倍于同领域标杆英伟达P4。

到了2021年,依然是云栖, 倚天710以阿里首款为云而生的通用CPU 震动业内,性能跑分领先,能效比更是领跑……

加上今年披露的 落地部署和应用进展 ,用产品回应质疑,用进展证明模式和实力。

平头哥造芯模式,正式跑通

整个进程中,平头哥造芯模式的速度秘诀,也在摸象中逐步清晰。 核心归结起来其实就3点。

第一,造得快,因为需求清晰。

传统半导体厂商造芯,先调研客户、再收集需求、接着内部收敛聚焦,然后才能进入定义和芯片设计……过程中免不了技术、产品和工程的拉锯平衡,于是造芯周期光在前期规划就会无限拉长。

平头哥之所以不同,是因为阿里云在客户服务、需求和算力产品定义上,积累已非一日,设计规划周期,可以大大缩短。

第二,造得好,源自任务明确。

一方面,通过需求定义供给。什么样的任务,需要芯片提供什么样的能力……传统造芯,先把性能按照天花板设计,再在部署应用中想办法适配和榨干,芯片之于应用是参考答案。而需求定义供给,则可以抓住主要任务和矛盾,芯片即解答。

另一方面,软件定义硬件。芯片作为计算任务的解法集成,以前是先有硬件再配算法,但从AI为主的专用需求开始,最高效的解法早已变成了软硬一体化方案,甚至为了算法和软件去定制芯片硬件。

这种源头起点上的变革,芯片的性能、功耗、应用落地,自然不会差。

平头哥造芯模式,正式跑通

第三,用得上且用得好,因为落地场景清晰。

平头哥造芯,从一开始就与阿里云紧密协同,阿里云是集团同事、客户、也是落地场景,在阿里生态内,就能完成芯片的全流程。

芯片的流程,之前最受关注的是设计和流片,但这其实只是开始。

流片之后需要压测,验证稳定性,然后小批量交付客户开发利用反馈,进行功能性测试,如果有问题还得重新设计、改版,再走一遍周期,这也是为什么一款芯片在流片成功之后,依然需要一年半载才能验证应用价值的内在原因。

但平头哥不同,在阿里集团内部,在阿里云的体系协同下,各种压测、场景和应用反馈,基本是 完整全链路 的。

比如倚天710,去年8月点亮成功,云栖大会官宣发布,紧接着双11就开启了峰值极限下的稳定性压测……以往传统芯片公司用时一年半载才能完成的流程,阿里几个月就走完了, 一款芯片的成熟周期,被大大缩短

所以平头哥造芯,自然是攻坚科技产业中最基础又最关键的一环,但从一开始就并非为造而造,或者因为热潮而出发。

平头哥半导体的价值,或许要放在 整个阿里的算力攻坚进程中 ,才能透过局部看整体,透过现象看清本质。

平头哥造芯模式,正式跑通

阿里云 的发展史,关于开创者们的往事记述很多,而且传奇性和喜剧感十足,早已深入人心。

但从 算力技术 主线和维度,可以倒推归结为 4个阶段

第一个阶段,用分布式技术解决算力瓶颈。

在全球互联网流量大爆发之前,企业算力的核心载体是 小型机 ,通过线下自建或租用服务器的方式解决算力问题,但对于身处消费互联网方向上的企业而言,这种模式显然越来越难以为继。

阿里的算力攻坚,以及阿里云计算的肇始,就是基于这样的背景。

2007年,为了应对指数级扩张的淘宝流量,阿里开始从业务底层的 IOE (IBM小型机、Oracle数据库、EMC存储)寻求根本性解法,即后来的基于云计算搭建全新技术架构,打破“扩大采购规模”的线性局限。

其后进一步为这套底层技术和上层业务开发操作系统,在 2009年正式启动了飞天 ,阿里云也由此正式成立,没想到日后会成为中国企业自研云计算的开端。

平头哥造芯模式,正式跑通

飞天云操作系统的本质,是要用分布式架构替换中心化架构,可以让全世界服务器实现连接,既能快速应对突增的流量,还能 让计算资源真正像水电一样即需即用

所以“分布式架构”和发展方向,就是算力攻坚的核心第一仗,后面集群挑战、故障运维、并发应对……都是正确方向之下的升级打怪。

结果则人人都感知到了。双11购物不再卡顿,12306春运购票也逐渐不再被吐槽……这都是阿里在分布式计算思想下开花结果的功劳。

第二阶段,从云计算需求和痛点,反向定义新硬件。

云计算的好处,一用即知,但虚拟化损耗的问题却一度成为顽疾。

所谓 虚拟化损耗 ,就是云端调用线下服务器的进程,本身就会吸走机器性能,造成算力浪费。

业内面对这一顽疾,往往采用更低成本的软件优化方法,但显然治标不治本,只能优化,不能根治。

平头哥造芯模式,正式跑通

阿里云的方法是后来的 神龙架构 ,打造了一个专用硬件来负责芯片不擅长的虚拟化调度工作,用软硬件一体的思路真正做到了0损耗。

这让阿里云一下子坐稳了份额第一的位置,也带来了更重要的开始: 算力攻坚要向底层硬件、甚至芯片寻求解法

软硬一体化,软件定义硬件,或者说云计算定义新硬件的趋势……在阿里云,以2017年9月第一代神龙架构推出作为标志性节点。

第三阶段,造芯,重塑整个IT硬件体系。

也就是当前所处的阶段,以2017年达摩院成立,求解前沿芯片技术和2018年平头哥半导体推出为标志性事件, 阿里云真正从“软”到“硬”,从云端向下定义芯片

平头哥造芯模式,正式跑通

当然这种求解,有宏观社会责任担当的原因,但在阿里云发展方向里,趋势也早已再明显不过。

一方面是去IOE体系之下的硬件进一步变革需求。另一方面,作为云计算服务提供商,不碰芯片,不碰硬件,其实就无法真正做到性能、成本和体验的最优解。

于是可以看到,除了自研芯片,阿里云还在服务器、交换机等硬件方面做了系统性革新, 以芯片为起点,几乎重塑了整个IT硬件体系

上一阶段的神龙架构计算平台,也在不断升级,成为新物种: CIPU ——向下可以对数据中心的计算、存储和网络资源快速云化并进行硬件加速,向上接入操作系统。

所以这就是终点了吗?

从阿里云已经交货部署的成果来看,可以算是 阶段性终点 了。

但如果放在算力攻坚的 终局审视 ,或许还有两个更宏大的 时代级问题

一是新型计算架构 整个产业都到了突破传统冯·诺依曼架构存储计算分离的性能瓶颈的关口,存算一体的新型大一统计算体系架构,被越来越多提及。

二是新型颠覆式计算形态 ,比如量子计算。

有意思的是,这两大时代级问题,任何一个对于当前算力格局的影响,可能都会是 *弹核**级 的。

平头哥造芯模式,正式跑通

总的说来,只有如此全局式透视,以终点看起点和过程,才能 更本质地看清阿里造芯、平头哥模式的归、去、来

这背后是一家公司对于科技需求和科技发展挑战的 逢山开路 ,但同样也是 时代趋势的具体映射和展现

或许不用再赘述和论证了。

一个时代有一个时代的算力需求和挑战,于是一个时代也就有一个时代的算力解决方案,进而一个时代就会有一个时代的造芯模式。

平头哥模式,就是代表 算力发展方向的代表性模式

平头哥造芯模式,正式跑通

如何评价「平头哥模式」?

最后,芯片全流程work,整个模式跑通,也意味着平头哥出发时被寄予的期望和质疑,都到了可以重新评估的时候。

阿里造芯以来,噱头、热点和形象工程之说,从未停止。

但随着 倚天710年度*交性**卷 ,成为中国首个云上大规模应用的自研CPU,此论可休矣。

而且倚天710创造的纪录、展现的效用、开启的范式,必将带来造芯模式上更大的启发和变革。

其次,过去几年 云计算相关的格局洗牌猜想 ,同样也到了有理有据的结辩时刻。

过去的市场份额是阿里云一骑绝尘,因为出发得早。接下来的格局也依然会是阿里云不可争锋, 因为基于芯片和底层软硬一体架构的壁垒 ,无人能比,短时间内无人能及。

而且业内业外,一种讨论和新观点也正在愈演愈烈:

新时代的科技竞速,本质就是以算力为基建的竞速。

下层基建决定了上层生态。底层基建决定了发展速度。

或许完全强调算力的作用,太过绝对。但谁也无法否认的是, 算力正在成为科技发展中最基础也最重要的生产要素

而对于阿里和阿里云来说,过去的积累和沉淀,在当前的时代级变革前显得如此恰逢其时。

平头哥造芯模式,正式跑通

芯片、操作系统、数据库、存储、网络和上层应用……拥有全栈完整自研软硬件技术体系的云计算提供商,中国目前仅此一家。

这是阿里之幸,也是时代给予的机遇。 科技变革的规律,通常都是哪里有痛点需求,哪里就有解决方案和应对之策

但上一波科技浪潮涌动之时,中国玩家没能参与其中, 基础半导体的研发和定义 ,也完全处于 跟随状态

所以现在,终于终于有机会, 可以在全新造芯范式下,从新起点出发,参与硬科技创新的研发和定义

或许这一次,也真正有这样有意思的机会——

源自中国文化里的兵器,比如玄铁、含光、倚天、屠龙……被更多人追问、了解和感叹。

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态