您现在的位置是:首页 > 科技 >正文

实探国产算力底座生态链!

发布时间:2023-12-04 17:27贾雅风来源:

导读 中国基金报记者 冯尧 距离ChatGPT引爆国内人工智能(AI)赛道已经过去9个多月。 各类大模型如雨后春笋破土而出后,AI正经历从“炫技”...


中国基金报记者 冯尧

距离ChatGPT引爆国内人工智能(AI)赛道已经过去9个多月。

各类大模型如雨后春笋破土而出后,AI正经历从“炫技”到“落地”的必由过程,正不断向各个行业场景渗透。那么,国内大模型落地进展究竟如何?这是市场普遍关心的问题。

中国基金报记者近日在福建多地连续实地走访了多家大模型厂商以及传统制造业企业,以探究AI如何与不同行业发生“化学反应”。在此其中,不乏规模较小的中小企业。根据记者观察,AI正在这些行业中作渐近式底层重构,尤其是在最为传统的制造业。

然而这一过程长坡厚雪,AI赋能千行百业仍处于早期阶段。但可以预见,未来AI将在更多场景落地,每个行业都值得AI进行不同程度重构。

更为重要的是,这一切都离不开算力底座。随着英伟达高端算力芯片管制扩大,国内众多场合中“算力稀缺”的声音不绝于耳,算力资源迅速成为炙手可热的“香饽饽”。这一背景下,算力价格水涨船高,不少算力厂商掀起了一轮涨价潮,甚至算力租赁都成为了一门“好生意”。

因此,国内头部算力运营方正在积极寻求国产算力底座,以构建AI算力市场“第二极”。记者在此次走访过程中发现,在算力底座方面,目前国内厂商初步解决了“有没有”的问题,但“好不好用”仍是对国产算力底座的灵魂拷问。

那么,面对“好不好用”的问题,国产算力底座当前痛点在哪?如何破局?厂商又在尝试作哪些努力?记者近期实地探访,与多方进行产业交流,以探寻究竟。

从“炫技”到“落地”

“设计这一环节以前是我们最头痛的,”长乐联达化纤有限公司总经理周彬坦言。该公司是一家专业生产各类中高档弹力花边、蕾丝花边的企业,属于传统纺织类企业。

在周彬看来,好设计师永远是行业里最为宝贵的资源。“过去一名设计师每个月最多能画十几张设计图,其中有一半被选中,转化率就算比较高”,但现在情况已经出现变化,”他表示。


长乐联达化纤有限公司产品

“现在有了AI辅助设计的‘神器’,只要以文字形式输入客户需求,30秒就能生成一组设计方案。再经过设计师进一步调整,马上就能下发机台生产,”他口中的“神器”,即为福州数字产业互联科技有限公司开发的AI设计辅助大师“盘古画画大模型”。


长乐联达化纤有限公司生产车间

类似增效的情况,还发生在福建东港针织有限公司中。在这家传统纺织类企业中,过往一人一机台的景象已经不复存在。机器只有因断纱或检测出疵点发生报警,设备会自动停机,人员此时才介入处理。

之所以能够实现无人值守,全依仗一套基于AI机器视觉的“经编疵点检测方案”。该方案由维库(厦门)信息技术有限公司所开发。据记者观察,每个经编机台上都部署了多个工业相机进行实时监测。


经编机台

该公司总经理林瑞滨告诉记者,该方案通过AI机器视觉,在生产过程中实现制品的机器检测,对产品进行全方位、立体化的质量监测,及时筛别瑕疵品并进行修复,大幅提高生产效率。

据了解,这一方案已经部署到长乐1000多台经编机上,且可适配6600多种布型的瑕疵检测。

不仅可以投身于纺织业,大模型还正在投入航空业。“传统航空业缺陷检测与故障判断大多依赖有经验的技术人员完成,这样一来,会有成本高、效率低、精确度差,无法批量化进行等弊端,”厦门大学航空航天学院教授曾念寅对记者坦言。

据悉,厦门大学空天信息智能研究团队发布了一项航空智能运维视觉行业模型。该模型是一种基于视觉感知的图像分析与缺陷检测的航空检测模型。

通过这一模型,航司可以对其飞机外表面损伤和航空发动机内部关键零部件缺陷进行精准识别,包括裂纹、坑洞、弯曲、缺口、材料缺失、螺丝脱落等复杂场景下的缺陷。

除了赋能航空业,记者还现场了解到,福建信息职业技术学院还通过AI机器视觉技术检测,智能识别温室大棚内是否存在虫害侵袭,这一细分领域的小模型将AI带入农业;而中医AI辅助诊断仪则基于多模态大语言模型,实现智能辅助诊断,实现望、闻、问、切的客观化采集。


接入昇腾AI平台的“植慧平台”

探访智算中心

众所周知,数据是“燃料”’,算法是“大脑”’,而算力是“躯干”’。任何多模态大模型或者行业小模型,都离不开算力支持。在此次采访中,不少大模型开发团队都提到一个共同信息,即在算力方面受益于福建省人工智能计算中心的算力底座支持。

资料显示,该算力中心是国内东南地区首个大规模人工智能算力集群,总体规划算力达400P。其中,项目一期算力105P,每秒运算能力达10万兆次。

据悉,该中心建有AI训练服务系统、AI推理服务平台、数据中心管理平台,可面向全省提供全场景、多维度人工智能服务。机柜内置超过500个模型算法库,其中涵盖多个千亿级参数的自然语言处理AI大模型。

记者随后也走进了位于福州滨海新城的智能计算中心,一探虚实。在智算中心AI训练机房里,一排排液冷AI服务器全速运转,悄无声息地为各类大模型提供算力底座。而在推理区共有149个机柜,训练成型的模型在服务器中部署,为政务、医疗、教育以及制造业等行业提供服务。


福建省人工智能计算中心

福州市电子信息集团总工程师陈爽告诉记者,该中心于去年3月份启动,也是福建省内目前唯一一个获得科技部获批筹建的国家新一代人工智能公共算力的创新平台。

据陈爽透露,其最大的特点在于,AI服务器设备实现了国产化。需要提及的是,记者此次采访中涉及的前述大模型有一个重要共同点,即无一例外基于昇腾AI算力底座提供支持。换言之,其所用的是一套国产化算力底座,并完成适配。

“现在整个环境大家都明白,要发展人工智能业务,需要有卡和算力,而AI服务器基于国产自研代表的就是稳定和安全,”陈爽直言。


AI训练液冷机房

而且除了实现国产底座之外,该中心另一特点即采用了液冷技术。根据行业数据显示,液冷系统约比传统风冷系统节省电量30%至50%。此外,液冷服务器还可以排除海拔、地域和气温的差距,保证运行效率和性能,具备规模化能力。

陈爽也提到,液冷技术PUE(数据中心功耗比)不仅较传统技术更低,而且相较于传统制冷方式,液冷技术下的高密度算力仅用1/5空间便可实现相同算力规模。

实际上,国家政策层对数据中心的建设提出了明确指标要求。根据工信部发布的《新型数据中心发展三年行动计划(2021-2023年)》要求,新建大型及以上数据中心PUE降低到1.3以下(PUE值越接近于1,数据中心的绿色化程度越高),严寒和寒冷地区力争降低到1.25以下。

在采访过程中,记者现场观察到,已有厂商推出了面向训练集群场景的集约化全液冷服务器,PUE<1.06,以满足AI大模型等高算力需求场景。

在2023年10月,工信部等六部门发布算力《行动计划》,其中便提出2025年建成50个智算中心等量化指标。而算力方面,到2025年规模将超过300EFLOPS,智能算力占比达到35%。

统计显示,截至今年6月底,我国算力总规模已经达到197EFLOPS。对比《行动计划》提及的目标,到2025年我国算力总规模还将扩容50%左右。

痛点:成本与适配

随着智算中心加速建设,国产化底座的“根系”有望不断壮大。但在记者采访的过程中,多位人士也提及当前国产算力底座扩张所面临的挑战。

“单从算力上看,国产卡已经可以媲美英伟达A100水平,”一位受访服务器厂商人士告诉记者。在今年8月,华为与科大讯飞联合发布讯飞星火一体机。星火一体机FP16算力2.5petaFLOPS。在单卡算力上,已经可对标英伟达A100。

但在上述人士看来,虽然目前国产算力底座有着较大替换市场,但的推广扩张的主要障碍之一便是下游厂商所考虑的成本问题。

“从替换角度来看,主要有两方面成本,一个是设备成本,包括新的服务器成本和配套改造成本,比如液冷配套设施改造,第二是人力成本,因为后期需要做较长时间的适配工作,”该人士介绍。

他举例,尤其是对当下政策所引导的液冷服务器方面,如果下游运营厂商拥有合适液冷服务器的硬件条件(包括称重能力、液冷管道以及防漏设施等),切换周期相对较短。根据实际情况,数小时到两三天便可以完成切换。“但如果需要从零开始搭建,耗费成本就比较高,再加上液冷服务器自身成本也不低”。

正如上述人士所言,成本是制约液冷服务器市场规模增长的主要原因。此前,国内一家头部服务器厂商人士告诉记者,国内数据中心大多以风冷为主,液冷服务器需要专业的液体冷却设备,因此改造成本较高,维护专业要求较高。

该人士同时表示,由于目前液冷服务器市场处于早期发展阶段,国内相关液冷行业标准也在积极摸索中。但在他看来,随着AI对算力芯片功耗提升,对液冷需求逐渐加强,并借助统一的技术实施规范标准,通过液冷项目的大规模部署,摊薄各项成本,液冷行业将进入螺旋上升进程。

毕竟,从长远来看,浸没式液冷服务器在散热效率和单机柜功率、空间利用率等方面比冷板式具有显著优势。

“如果把X86+英伟达比作‘国道’,那么现在国内算力底座(类似鲲鹏+昇腾)就好比重新搭建一条‘高速公路’,虽然初期整体成本可能比较大,但在规模化之后,建‘高速’的成本可能比建‘国道’更低,”前述服务器厂商人士如是比喻。

除了成本问题之外,在业内看来,适配也是国产算力底座亟待解决的问题。“并非任何一个算法或者一个基础软硬件就能去适配大模型,”一位参与交流不愿具名的算力厂商人士表示。“一个千亿参数大模型,大家是否都能去适配?国内真正能够做到的凤毛麟角,因为其中涉及到大量工程化任务,尤其是软件方面的工作更多。”

陈爽也有类似观点,他坦言,当下最难的是国产芯片算力适配工作。但他同时认为,完成国产算力底座适配的难度远低于在PC机领域对于微软的撼动和挑战。原因在于,当前国产算力平台“工具箱”中已经有足够多的工具可供使用。

民生证券在一份研报中提及,针对AI场景,华为设计了异构计算架构CANN、AI计算框架MindSpore和第三方适配以及全流程开发工具链MindStudio。

其中,CANN是一种异构计算架构,功能类似英伟达CUDA。CANN位于计算资源层和应用层之间,即芯片使能层,实现了在高性能计算硬件和AI应用之间架起一座桥梁。该机构称,在CANN 6.0版本下,模型迁移成功率可达90%。

另外,MindSpore 是支持云边端灵活部署的深度学习框架,众所周知,人工智能领域的发展,离不开深度学习框架。而MindStudio是面向开发者提供的一站式开发环境和工具集,使开发者能够在一个工具上高效完成算子开发、训练开发和推理开发。

“就整个产业生态而言,目前最大的挑战就是需要更丰富的软件应用以应对越来越丰富的客户需求场景,同时产业链各端也应该更紧密的合作与适配,”服务器厂商神州鲲泰相关负责人对记者表示。

国产算力底座走向台前

实际上,国产算力底座已经悄然走向台前。近期,多家国内运营商的AI服务器订单纷纷落地。

在10月13日,中国电信发布《AI算力服务器(2023-2024年)集中采购项目》中标候选人公示,以G系列为代表的国产AI服务器,中标金额约28亿元,占比约33%;中标台数约1977台,占比约47%。

中贝通信在近日机构交流中透露,该公司近期已与华为就华为根技术生态联盟合作、技术与业务合作等方面开展了交流,与超聚变达成算力合作意向,国产算力部署计划在细化落实中。

在此次记者走访过程中,算力巨头华鲲振宇发布了“云边端”全系列AI算力产品。针对云端的大模型训练场景,推出了基于昇腾的“天智”系列高密AI算力服务器——新一代训练服务器AT800。

另外,华鲲振宇还与大模型厂商智谱联合打造智谱-华鲲CodeGeeX2训推一体机,以昇腾AI硬件为算力底座,适配CodeGeeX2系列基础模型,用于为金融企业提供本地化部署的代码生成训推一体化解决方案。

近期,高新发展筹划收购华鲲振宇70%股权。数据显示,华鲲振宇近年来营收增长明显,在2021年,该公司营收为10.86亿元,而到了2022年和2023年前三季度,营收分别达到34.24亿元和39.49亿元,净利润分别为4340.97万元和4697.25万元。

而作为华为“昇腾万里优选级”伙伴,神州数码也一直在持续参与昇腾产业生态建设。该公司近期连续发布了神州鲲泰新一代中心训练服务器、神州鲲泰全栈智算产品和解决方案。而且,该公司近期连续斩获多笔订单。

11月19日,神州数码公告称,下属控股子公司合肥神州数码有限公司与深圳海上智云科技有限公司签订了《采购合同》,销售神州鲲泰品牌昇腾AI服务器,合同含税总金额为2.16亿元。

事实上,这已经是神州数码近期第二次披露AI服务器订单合同。在10月底,神州数码宣布,合肥神州数码有限公司与上海恒为智能科技有限公司签订了三笔《销售合同》,销售的同样是神州鲲泰的昇腾AI服务器,合同共计含税总金额为4.08亿元。

在全国范围内,神州数码信创业务去年全年营收19.7亿元,同比增长76%。而从今年三季报来看,其信创业务收入已经超20亿,同比增长69%,把并且已经实现了行业客户的全面突破,其中运营商三大客户实现全覆盖。

编辑:小茉

审核:陈墨

版权声明

《中国基金报》对本平台所刊载的原创内容享有著作权,未经授权禁止转载,否则将追究法律责任。

授权转载合作联系人:于先生(电话:0755-82468670)

标签:

上一篇
下一篇

最新文章