性能接近国际巨头后,龙芯将迎来什么?

更新时间:2023-01-13 09:38:09作者:智慧百科

性能接近国际巨头后,龙芯将迎来什么?

【文/科工力量专栏作者 铁流】

日前,龙芯发布了用于服务器市场的的3D5000系列芯片,引发关注。

3D5000与3C5000属于同一代CPU,是采用Chiplet技术把两片3C5000芯片互联和封装在一起,进而获得一片32核CPU,这种方式也被称为“胶水32核”。就性能而言,龙芯3D5000的IPC接近AMD Zen2的水平,全芯片性能与同主频下的32核AMD Zen2架构CPU接近,对于大部分应用已经是够用了。

在2023年,性能更强的龙芯6000系列CPU将要问世,龙芯在IPC上与英特尔、AMD的差距将会进一步缩小,真正阻碍龙芯在市场上推广的要素将不再是CPU性能,而是软件生态。

龙芯5000系列是自主CPU里程碑

2019年,龙芯3A4000四核处理器亮相。龙芯3A4000是继3A3000之后的新一代处理器。3A4000既升级了新内核GS464V,IPC大幅提升;又通过在原有28nm工艺上深入磨合优化,改进电路和物理设计方法,在制造工艺与3A3000相同的情况下,将性能提升了一倍。就3A4000的IPC而言,已经从3A3000的7/G达到了9.8/G,AMD的Zen大致也就在10/G水平,龙芯3A4000的GS464V是一款可以与第一代Zen匹敌的内核。

3A5000的内核是基于GS464V进行小改,IPC为10.6/G,采用12nm工艺,主频为2.2G至2.5G,后期流片的有2.7G主频版本,SPEC06定点成绩超过26(GCC,@2.5Ghz),这对于自主CPU而言已经是非常不错了,即便和引进的CPU相比,其定点和浮点性能仅次于海光,超过其他引进的X86和ARM CPU。

龙芯3A5000与龙芯3C5000、3D5000属于同一代CPU,3C5000采用LoongArch指令集,16核心单芯片unixbench分值9500以上,双精度计算能力达560GFlops,16核处理器峰值性能与典型ARM 64核处理器的峰值性能相当,并支持最高16路互连,搭配新一代龙芯7A2000桥片,PCIe吞吐带宽比上一代提升400%以上。就SPEC2006测试来看,单核定点浮点Base分均大于10/G,单芯片分值超过200。可满足通用计算、大型数据中心、云计算中心的计算需求。该处理器通过芯片级安全机制可为等保2.0、可信计算、国密算法替代、网络安全漏洞防护等提供CPU级内生支持。

3C5000最大特点是单核性能强,特别是unixbench这种看重单核和内存性能,多核加速比很低的测试,龙芯只用16核就能跑到9500,某ARM CPU即便有64核也跑不到这个成绩。从公开的数据来看,3C5000的性能在信创市场足够用了,而且16核的核心是使其部署比较灵活。

龙芯3D5000则是把两个3C5000封装到一起的胶水32核芯片,集成了64MB的L3 Cache,支持最多8个DDR4-3200 DRAM,可以通过HyperTransport接口构建至多四路处理器,因此单机可以支持多达128核。在性能方面,龙芯3D5000单路和双路服务器的SPEC CPU2006 Base实测可以超过400分和800分,预计四路服务器的分值可以达到1600分。可以说,龙芯3D5000主要针对一些对性能有更高要求的场景,只要软件生态跟得上,完全可以替换掉英特尔至强CPU。


龙芯6000性能将再次飞跃

相对于一些技术引进CPU在引进海外技术后CPU IPC增长缓慢,性能提高基本依靠购买更好的EDA工具和买台积电更好的工艺。龙芯一直致力于提升CPU微结构设计水平来提升CPU的性能,没有盲目去堆核心数量。这种稳扎稳打的做法使龙芯在过去10年中IPC提升了3-4倍,在桌面CPU上成效立竿见影。

CPU的IPC在过去10年中提升了3-4倍,这使龙芯可以在制造工艺上落后技术引进的某ARM CPU一代的情况下,依然可以依靠CPU微结构设计水平做到性能持平或略优于技术引进的某ARM CPU。当龙芯与引进的某ARM CPU采用相同工艺时,龙芯可以凭借其IPC上的优势在性能上领先某ARM CPU。


龙芯3A5000

3A6000和3A5000采用相同制造工艺,龙芯依靠其设计能力把CPU性能大幅提升,主要是拉大框架,比如把4发射改成6发射等等。从此前公布的仿真成绩看,定点相对于3A5000提升30%,浮点相对于3A5000提升60%,这种提升是非常骇人的——如果仿真成绩与最终成绩相当,那么,3A6000 SPEC06单核定点Base分大于13/G,浮点Base分大于16/G,基本达到AMD Zen2水平。如果3A5000为2.5G至2.8G,那么,3A6000的 SPEC06单核定点Base分大于35,浮点将大于45。

从公开信息看,在使用相同工艺的情况下,3A6000性能比3A5000提升40%—60%,芯片面积缩小20%,12nm的3A6000对标7nm的AMD Zen2。做最保守估算,3A6000 SPEC06单核定点Base分为32分(@2.5G)至35分(@2.8G)。这个性能对于信创和日常使用而言都已经明显过剩了。

必须说明的是,仿真往往是不准确的,有的公司会高估,有的公司会低估,从龙芯这几年发布的信息看,龙芯是偏保守的,实测成绩只会比仿真成绩好,以最近流片回来的2K2000来看,实测成绩比龙芯仿真成绩高了20%至30%,这大大超乎龙芯的预期。龙芯2k2000的LA364性能基本追平ARM A76,充分展示了自主路线的发展潜力和发展活力。

3C6000是16核服务器芯片,内核是LA664,与3A6000相同。3D6000则是两片3C6000封装在一起构成32核服务器CPU,可以匹敌搭载Zen2核心的AMD EPIC。只要软件能跟上,商业市场已经没有性能短板了。

龙芯下一代7000系列CPU,进一步提升CPU核性能,IPC瞄准Zen3和12代酷睿,计划采用7nm工艺,SPEC06定点Base最保守估算是40分,届时,会有24-32核的3D7000(7nm)和48-64核3E7000(两片封装)。

Chiplet有利有弊 不宜神化

有文章认为:由于地缘政治的影响,中国的半导体行业受到了种种限制,尤其是开发自主知识产权的关键芯片(如国产CPU,或者之后有可能受到影响的其他高性能计算芯片)的公司难以使用最先进的半导体工艺节点。

另一方面,中国的半导体fab同样由于受到地缘政治的影响,难以快速追赶全球最先进的工艺节点,而目前只能主要生产成熟工艺节点(如28nm),或者是介于成熟工艺和先进工艺之间的工艺节点(例如SMIC今年刚开始大规模量产14nm,未来几年可望做到10nm以下)。即使是介于成熟工艺和先进工艺之间的工艺节点,也会存在良率较低等问题,需要时间来解决。

在这样的情况下,国产自主知识产权芯片在受到地缘政治影响下只能使用较落后的工艺节点,那么使用Chiplet这样的高级封装技术就成为了突破工艺限制,或者说至少减少工艺对于芯片影响的一种重要技术。


铁流认为,以上观点总体是没问题的,但不宜将Chiplet神化,毕竟封装也是存在成本和良率问题,关键还是要看需求和场景。

当下,龙芯的最大短板是软件生态,其次是制造工艺。就工艺而言,一方面是龙芯钱少,不可能和苹果、高通这些巨无霸去抢台积电最尖端工艺,何况当下台积电尖端工艺还存在政治风险。正是因此,龙芯在制造工艺的选择上往往是偏保守,基本与境内晶圆厂的最佳制造工艺同步,而弥补工艺差距的方式就是采用Chiplet技术。Chiplet是一种封装技术,在制造工艺与台积电有差距的情况下,可以通过使用先进封装技术来弥补不足。

Chiplet技术并非是横空出世的新技术,过去,AMD的64核和128核就是将8核的芯片和IO桥片封装在一起的,这其实就是运用Chiplet构建多核和SoC主流的技术。Chiplet最大的优势是降低成本和提升芯片集成度,可以使12nm芯片在集成度上媲美7nm芯片。由于片内互联效率大幅高于片外互联,将原来的板载芯片集成进来以后,可以大幅提升互联速度。此外,Chiplet还可以实现不同制造工艺芯片的“混搭”,比如关键模块采用14nm工艺,次要模块采用28nm工艺,然后封装到一起,这种SoC的性能和真正的14nm芯片相差无几,但成本将低于14nm芯片,在性价比方面会更有优势。

目前,龙芯的技术还属于2D水平,其实并不算多强,现在主流已经开始向2.5D和3D发展。龙芯3D5000之所以没上2.5D,主要是因为就目前龙芯的互联速度,2D版本就足够了,后续接口到16Gbps了就会采用2.5D。

必须说明的是,不宜把Chiplet神化,因为封装也有成本的,还有良率的问题,也不是封得越多越好。关键还是看需求,Chiplet对服务器芯片有利,普通芯片盲目封装没太多好处。

展望未来

就性能而言,3A5000应对日常使用和单位办公已经是性能过剩了,3A6000则是进一步性能过剩,7000系列CPU则能进入商业市场竞争。对于龙芯而言,性能已经不是最大短板,软件生态和产业生态才是短板。

对此,龙芯措施是两手抓,一方面用二进制翻译兼容X86生态,另一方面推出自主编程框架。

以LATX来说,目前已经可以运行大量X86/Windows应用,预计还需要一年时间完善。以打印机来说,现在97%、98%以上的打印机龙芯不用迁移,可以直接用,这在X86和ARM上都没有做到,凡是windows有的驱动龙芯都能跑。还有少量的2%、3%的问题,将逐步解决,也就是说在X86和ARM平台上肯定很多打印机认不了,但在龙芯的平台上,可以保证100%的打印机都能识别。

自主CPU和操作系统的整机产品之所以需要无休止的迁移适配,主要是因为这些系统是不在自主平台上写的,现有的应用都是基于别人的编程框架编出来的,自主编程框架是自主操作的重要特征,目前国产操作系统都不是真正意义上的自主操作系统,只是开源操作系统的自主发行版,APP开发者使用的自主编程框架进行编程才能彻底解决无休止的适配问题,所以龙芯在明年争取推出自主编程框架。未来就像手机APP有苹果版和安卓版,未来电脑的系统有龙芯版和windows版,这样龙芯就有自己的生态了。

这个过程会非常漫长,也许5年,也许8年。软件生态建设就是一场持久战,只要坚持不懈,就能如同八年抗战赶走日本鬼子那样,构建成龙芯生态。

本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。

本文标签: 处理器  amd  arm  cpu  单芯片  半导体行业