去搜搜
头像

芯片领域再次受限,国产GPU的机会来了?

发布于 2022-09-01 19:03

2022年9月1日,AMD和英伟达中国区接到美国总部命令称,将暂停服务器GPU在中国地区的销售,被限制的产品是有足够双精度计算能力的高端GPU,就NVIDIA来说,是以A100算力为基准,比它先进的所有显卡产品都会受限。

 

受此消息影响国产GPU企业景嘉微、海光信息开盘涨幅高达20%,市场消息称国产GPU将迎来加速发展。那么高端服务器用GPU停止向中国销售将会产生哪些影响?国产GPU企业是否将迎来利好?中国GPU行业发展的何种程度?

 

为解答上述问题,妙投邀请到某数据中心硬件供应商高管吕先生,为投资者答疑解惑。

 

核心看点:

  1. AMD、英伟达停止在中国销售高端服务GPU会导致国内服务器、数据中心提升算力受阻,使相应企业不得不面对更高的能耗和更大用地面积,对AI、基础科学、医疗、东数西算、互联网、运营商等多个行业造成影响。

  2. 该消息对国产GPU企业不构成实质性利好,国产GPU企业没有A100、H100等超高算力的产品,现阶段国产GPU难以在高算力产品上形成替代效应,但长期看会加速国产GPU的发展。

  3. 国产GPU与海外GPU的差距体现在硬件和生态两方面,硬件差距体现在硬件架构和芯片制程方面,硬件架构的研发、升级和迭代依赖长期的、大量的资金投入,芯片制程依赖国内半导体产业链的共同努力。

  4. 中外GPU在生态方面的差距最大,海外的壁垒也最为坚固,英伟达的CUDA生态在教育、软件、系统、硬件等多个维度均形成了垄断,国内GPU企业自建生态的难度极大,大部分国产GPU只能兼容外部生态或采用开源生态。


2021年国内芯片进口金额约2.8万亿,创下了历史新高,2022年前7个月,我国进口芯片数量为3246.7亿个,同比下降11.8%,而进口芯片的金额却上涨至1.58万亿,同比上涨5%,预计2022年芯片进口额将再次刷新历史新高。


而GPU是一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的芯片,目前GPU凭借其超强的浮点运算能力,在工作站、服务器、数据中心、AI等领域均占据了至关重要的地位。AMD、英伟达停止向中国销售服务器GPU会产生哪些影响?

 

专家认为:从文件中可以看到此次禁用的是英伟达A100和H100,以及AMD的MI100和MI200,这4款GPU都属于最高端的服务器用GPU,市场定位不是针对普通消费者,只有高性能高精度计算集群才会使用如此高规格的GPU,通常只有服务器、数据中心、科研机构、实验室才会对如此高算力的GPU有需求。

 

影响主要集中于企业级数据中心,像运营商、互联网公司等企业的数据中心受影响比较大,算力高精度GPU一般用于AI神经网络集群、模型计算,医疗,以及一些基础科学计算领域,对这些行业的成本和效率会造成比较大的压力。


因为随着基础科学、互联网、数据中心这些行业的发展,数据的复杂程度越来越高,数据量也越来越高,其对算力的需求也越来越高,算力中心必须持续扩大规模,导致算力中心已经变成了能源密集型产业,采用最新制程、最新架构的GPU可以大幅度降低数据中心的能耗水平,降低计算卡采购规模。


现在禁用了最先进的GPU以后,只能采用相对落后的产品,导致算力中心的能耗、成本堪忧,影响还是很可观的。

 

国内也存在景嘉微、摩尔线程等GPU企业,此消息对国产GPU是否是利好?

 

专家认为:短期内会会有一波炒作,实际利好内应该是看不到。被限制的都是英伟达和AMD两大巨头旗下最先进的产品,甚至可以说这些产品是人类半导体行业的集大成之作,像这种级别的GPU国内没有任何一家企业能做到类似的水平,所以根本谈不上替代。

 

美国只禁用了英伟达和AMD算力最强的几款GPU产品,海外巨头们往期的老产品也依然能继续在华销售,国产GPU和海外巨头老产品之间的差距也属于数量级的级别。在信创领域之外,国产GPU依然希望不大。美国应该也不会傻到禁售全部服务器或者民用GPU产品。

 

长期来看的话,对于服务器领域硬件国产化能起到一定的加速作用,但真正能在商用领域实现大范围国产化时,一定是国产硬件产品自身具备了一定的素质,能满足各个产业的需求,像现在的水平想要实现大规模国产化还是非常难的。

 

国产GPU相较AMD和英伟达的GPU有何差异?

 

专家认为:差距体现在两方面,首先是硬件差距方面,国产GPU和英伟达H100单精度浮点算力硬性差距在一个数量级左右,英伟达还有针对矩阵计算专用的tensor核心,算上tensor核心的话差距在3个数量级左右。


要是说硬是用数量弥补质量的差距,也是可行的,但是在成本上非常不划算,也不会有企业愿意这样做。造成硬件差距的原因是国内芯片架构层面的落后,以及制程工艺的落后。

 

海外巨头在客户渠道方面经过了长期的积累,已经形成了非常稳定的企业级客户群体,稳定的营收保证了研发的稳定性,所以每2-3年巨头都会在上一代的基础上更新架构,硬件升级上更有连续性,算力性能可以有非常稳定的提升,已经形成了研发-销售-研发的良性循环。

 

国内GPU厂商的只有景嘉微等少数几家会自研ip架构,其他大多数企业的架构都是来自外采,架构的先进性和更新的稳定性难以得到保证。架构研发依赖很长时间的积累,英伟达通常会有至少2代的架构在并行研发。

 

制程的问题属于中国半导体产业链的问题,在半导体产品中,GPU对先进制程的依赖性仅次于手机soc和CPU,这方面中国存在天然的劣势,GPU企业也是无能为力。

 

差距最大的还是在生态,还是以英伟达为例,英伟达每年会支出数百亿美元用于构建和维护基于英伟达CUDA核心的生态,这部分资金用于资助企业开发基于CUDA生态的软件、系统和硬件。

 

长达十几年的生态维护使得基本市面上所有的工业软件、操作系统、游戏全部兼容甚至只兼容英伟达的CUDA核心,这是英伟达最核心的壁垒,即使是另一巨头AMD在生态环境方面都难以有所建树。


另外,英伟达为了培养用户使用习惯,和世界知名高校都有良好的合作关系,工程师从学生时代就在使用英伟达的生态,接受英伟达的硬件逻辑,这是最难改变的。

 

在生态方面,国内GPU企业进度较慢,目前看到也只有景嘉微在生态方面投入了少量的精力,其他大部分国内GPU厂商走的还是兼容外部生态或者采用开源生态的模式。生态方面的建设依赖超长期的资本投入,配合过硬的硬件素质才有可能实现。


本回答由1位专家参与