2023年4月8日上午,龙芯中科在河南鹤壁举办的信息技术自主创新峰会,正式发布了新一代龙芯3D5000服务器处理器,标志着龙芯中科在服务器CPU领域进入国内领先行列。


龙芯在2020年推出了自主指令系统LoongArch,2021年到2022年以来陆续发布了面向桌面的龙芯3A5000、面向服务器的龙芯3C5000,分别是4核、16核架构,这次发布的龙芯3D5000则是2个3C5000封装,做到了32核,主要面向高性能计算。
龙芯3D5000依然采用龙芯自主指令集LoongArch,这是龙芯100%自主指令,无需国外授权。

龙芯官方表示,龙芯3D5000具备超强算力,性能卓越的特点,可满足通用计算、大型数据中心、云计算中心的计算需求。龙芯3D5000的推出,标志着龙芯中科在服务器CPU芯片领域进入国内领先行列。

具体架构上, 龙芯3D5000内部集成了32个高性能LA464内核, 频率2.0GHz,支持动态频率及电压调节,片内64MB L3共享缓存,8通道DDR4-3200 ECC内存,5个HT 3.0高速接口,实现了双路、四路CPU扩展支持。
龙芯3D5000采用LGA-4129封装,TDP功耗为300W,不过典型功耗只有150W,算下来每个CPU大约是5W功耗左右,能效还是很不错的。
性能方面,龙芯3D5000的SPEC 2006分数超过425,浮点部分采用了双256bit向量单元, 双精度浮点性能可达1TFLOPS((1万亿次),是典型ARM核心性能的4倍。

龙芯3D5000还可以搭配自研的龙芯7A2000桥片支持2路、4路CPU,单台服务器可以做到128核,4路CPU2006定浮点性能实测可达1500分以上,并行效率很高。
此外,龙芯3D5000的8通道DDR4内存的Stream性能也超过50GB, 桥片龙芯7A2000比上代性能提升400%。
国产CPU的一大优势还有安全,龙芯3D5000在这方面也做足了功夫,专有机制可以防止Meltedown、Spectre等漏洞攻击,还在芯片内集成了安全可信模块,可以取代外置可信芯片。
龙芯3D5000还支持国密算法,内嵌独立安全模块,高性能加密解密效率可达5Gbps以上,足以替代高性能密码机。
基于龙芯3D5000,龙芯还推出了2路、4路服务器参考设计,CPU2006性能可达800、1500分以上,浮点性能可达2T、4TFLOPS。
服务器使用的BMC(服务器远程管理控制芯片)现在也依赖国外厂商, 龙芯这次还推出了自研的BMC芯片2K0500 ,LA264架构,频率500MHz,集成2D GDP、32bit DDR3等,支持1920x1080 60hz输出,支持多种管理协议,可以平替国外BMC芯片,助力服务器100%国产化。
龙芯还推出了LoongArch云平台,基于龙芯3D5000、龙芯7A2000、BMC控制芯片等自主芯片支持打印云、教育云、国密、五金云、混合云等场景,实现大数据、分布式存储、人工智能、物联网、区块链、云安全及高性能计算等能力。





峰会上,龙芯中科公司董事长胡伟武还重点介绍了龙芯CPU的技术和产品布局,以及未来规划。

胡伟武表示,龙芯CPU的主要特点是“ 一个唯一、三个不同 ”。
龙芯CPU是国内唯一基于自主指令系统构建、独立于Wintel/AA的开放信息技术体系,和国内多数企业直接购买国外商业IP进行芯片设计、基于x86/Arm指令系统融入国外信息技术体系、依赖境外先进工艺提升性能的做法,是完全不同的。

目前,龙芯CPU的主要IP核,都是自主研发。
其中,硬IP包括寄存器,以及内存、HT总线、PCIe/SATA/USB、网络等等的物理层,并适配从130nm到12nm等不同制造工艺。
软IP则包括CPU内核、GPU图形核心、加解密算法,以及存储、总线、网络、音频、工业等各种接口。

龙芯CPU的产品布局分为三大系列:
龙芯1号是MCU(微控制器),专门面向嵌入式应用。
龙芯2号是SoC(片上系统),面向工控、终端应用 ,又可以细分为龙芯2K1000LA、龙芯2K2000、龙芯2K3000三大平台,目前分别使用40nm、28nm、12nm工艺,同时结合具体引用,还可以定制专用的SoC。
龙芯3号是CPU(通用处理器),面向桌面和服务器应用 ,也是多数人更熟悉的,搭配自研桥片(芯片组)形成双芯片的解决方案。
该系列已经演进了三代,第一代是龙芯3A1000、龙芯3B1500,第二代是龙芯3A2000、龙芯3A3000,第三代则是龙芯3A4000、龙芯3A5000、龙芯3C5000。
胡伟武表示, 龙芯CPU的设计设计基本原则是先提高单核性能,再增加核心数;先优化设计,再结合先进工艺提高性能,有些类似Intel当初的Tick-Tock策略,交替升级工艺和架构。
经过20多年的发展,龙芯CPU的单核性能已经达到国际主流水平。
在服务器领域,龙芯CPU提升单核性能的同时,结合多核、多线程、高速互连、先进封装等技术,快速形成系列化、强竞争力的产品布局。

2010年到2020年这十年,可以说是龙芯的“补课”时间,全力提升架构和单核性能。
在此期间,龙芯用同一款产品适配桌面、笔记本、服务器的不同需求,即便被客户和市场评价性能太低也坚持一步一个脚印地走下去。
在完成了足够的性能积累之后,龙芯开始全面布局服务器、桌面、移动终端等各个领域,针对性地推出不同产品,逐步枝繁叶茂。


在服务器领域,龙芯3D5000发布之后, 龙芯将先后推出龙芯3C6000/3D6000,延续龙芯5000系列的12nm工艺,内核升级为LA664,前者原生16核心32线程,后者双芯封装组成32核心64线程。
再往后的2024-2025年,我们将看到龙芯3D7000/3E7000,仍旧是LA664架构核心,但升级制造工艺,分别达到32核心64线程、64核心128线程!
桌面领域,接下来将分别是龙芯3A6000/3B6000、龙芯3A7000/3B7000 ,与服务器端的同系列产品同工艺、同架构,只是核心数等规格略低一些。
龙芯2号家族后续将陆续迎来龙芯2K3000、龙芯2P0500、龙芯2K0300,龙芯1号家族则会有新的LS1系列,详情暂未披露。

龙芯3号系列在不同领域采用不同的内存通道设计,其中在服务器上是单片四通道内存、双片整合封装组成八个内存通道。
下一代龙芯3C6000将在片内集成PCIe高速通 道,从而提升芯片间互连带宽,龙芯3D6000会同步推出。
龙芯3D7000单芯片设计,核心数量24-32个,四个内存通道。龙芯3E7000双芯片封装,规格翻番,核心数量达到48-64个,八个内存通道。
在桌面上则是双通道内存, 下一代龙芯3A6000仍然是4核心,主频首次达到2.5GHz,搭配龙芯7A2000桥片,大幅提升性价比 ,今年上半年会流片回来,将会提供样品给合作伙伴,预计大批量的出货将在明年。
根据龙芯此前公布的白皮书,龙芯3A6000的性能评估比现在的龙芯3A5000提升多达40-60%,同时硅片面积减少10%,设计水平可对标AMD Zen2。
之后的龙芯3B6000,将首次采用大小核架构,同时集成GPU图形核心、PCIe控制器等,而与之搭配的下一代桥片龙芯7A3000,将成为一个“弱南桥”,因为它的HT总线、GPU图形核心、显存接口等模块,都将转移到CPU内部。
在笔记本上是单通道内存,主打的将是龙芯2K2000、龙芯2K3000等单片方案(也用于工控领域)。

龙芯2号家族中,龙芯2K2000在去年12月中旬官宣流片成功,并完成初步功能调试、性能测试,达到设计目标。
它采用28nm工艺,并且是境内外同步进行,境外是FD-SOI(全耗尽型绝缘层上硅)技术,境内则是体硅技术,支持USB 3.0。
龙芯2K1500可以视为它的一个变种版本,今年年初流片成功,集成两个LA264核心,主频1.0GHz,支持DDR3、PCIe 3.0、SATA 3.0,典型工作场景下功耗不高于2.8W。
还有龙芯2K0300面向嵌入式,龙芯2P0600专用于打印机。
下一代的龙芯2K3000,将升级到12nm工艺平台,集成八个LA364 CPU核心、LG200 GPGPU图形核心,总线升级支持PCIe 4.0。

龙芯1号家族在2022年经历了一次调整,从早起的SoC、MCU两种类型改为全部做MCU,更加专一。
龙芯1C102、龙芯1C103已经在去年底流片成功,均采用LA132内核,其中前者主要面向智能家居、其他物联网设备,比如智能门锁类产品、电动助力车、跑步机等。
后者主要面向电机驱动类物联网产品,比如筋膜枪、修枝机、电锯、电扳手、跳绳机、风扇、汽车电子等。
下一步将是龙芯1C201,是一款高性能的MCU ,详情未知,但看编号就知道提升幅度,架构自然是全新的。
另外还有龙芯1D100,主要面向流量表解决方案。

目前,龙芯中科自主的LoongArch指令集架构,从小巧的龙芯1C103,到庞大的龙芯3D5000,已经形成了完整的系列化产品。


有了好的硬件,更要有好的软件,才能协同释放性能,便于落地商用。
为此,龙芯设计了不同的基础版操作系统,便于客户二次部署,完成基础软件体系建设,包括 桌面的Loongnix_Desktop,服务器的Loongnix_Server,工控嵌入式的Loongnix_Embedded、LoongOS、LoongWorks。
其中在嵌入式领域,Loongnix_Embedded是基于桌面版深度定制,进行简化、实时化,可以跟随Linux技术路线,拥有海量软件生态支持。
LoongOS参照开源社区Yocto自主研发,LoongWorks则基于vxWorks深度定制开发,达到了相当于DOS到Windows的飞跃。


在基础软件、应用软件的生态建设上,龙芯采取了二进制翻译的做法,实现跨平台兼容,打印机、浏览器、办公与日常软件、游戏等等都可以移植。
在历史上,Linux桌面还没有成功先例,IBM、Ubuntu都尝试又失败了,而龙芯的Linux桌面生态已经局部超过x86、Arm,预计到2023年底可以全面超过!

最后简单说说大家非常关心的制造工艺问题。
如今,国际(主要是美国)的半导体工艺依然处于绝对领先,而且优势巨大,但我们也要看到,先进工艺的发展正在放缓,所带来的效益提升也越来越小,摩尔定律渐渐失去了魔力,包括成本越来越高、功耗越来越高等等,不得不通过各种新的封装工艺弥补。
我国自主工艺还落后太多,但近些年取得了长足进步,可以基本满足自主CPU的需求。
其中, 28nm可满足所有工控应用需求,14nm工艺已经实现稳定量产,可满足所有生产办公类信息化应用需求,5nm刻蚀机也有了。

经过20年的发展和积累,龙芯已经在2021年基本完成了自主CPU处理器和OS系统的“补课”工作,CPU性能达到市场主流水平,而且推出了自主的LoongArch龙架构指令集,基本完成了基础软件技术体系 (接下来就是软件应用体系的建设)。
“十四五”期间,龙芯将努力完成“三个转变”,包括 从技术“补课”到生态建设,从政策性市场到开放市场,从跟随发展到自主发展!
胡伟武表示,当前,龙芯已经开启了生态建设的新征程,构建与Wintel体系和AA体系“三足鼎立”的自主信息体系新格局,而信创替代一定要做到体系替代,只有从指令系统层面的独立创新,才是真正的自主。

2022年,鹤壁市和龙芯中科达成全面战略合作协议,以龙芯中科为龙头、龙芯产业链为核心,吸引龙芯产业生态链上下游企业聚集,打造“全场景+一基地+五中心”的龙芯生态产业链,促进鹤壁信创产业发展。
本次峰会上,还举办了龙芯生态产业园集中签约仪式,16家产业链代表性企业进行集中签约,合力助推全国信创产业发展。

共勉!