国内首个国产千卡级工科智算集群启动
6月25日,国内国产海光信息与同济大学在上海正式签署战略合作协议,首个算集共同启动国内首个国产千卡级工科智算集群。千卡群启该项目聚焦人工智能在工程教育、科智科研及产业创新中的国内国产赋能作用,旨在为高校科研与产业应用的首个算集深度协同提供具有示范意义的实践案例。

同济大学·海光信息千卡集群启动仪式
图片来源:观察者网
技术底座与场景适配
该智算集群依托海光CPU与GPU/DCU构成的千卡群启“双芯”算力底座及融合架构建设,专门针对AI4E(AI for Engineering)场景进行深度适配。科智集群具备支撑人工智能训练推理、国内国产科学计算及工程仿真等多类复杂任务的首个算集能力。
与传统通用算力平台相比,千卡群启工科智算集群的科智核心差异在于对工程软件迁移的高度重视。其算力底座需在“兼容性、国内国产适用性和稳定性”三个维度提供坚实支撑,首个算集服务对象紧密贴合桥梁设计、千卡群启建筑设计、汽车研发、海洋工程以及CAD/CAE等真实垂直应用领域。
战略意义:从AI4S到AI4E的深化
同济大学党委书记、中国工程院院士郑庆华在致辞中强调,人工智能的发展依赖于数据、算力和算法三大基石,其中算力是底层支撑平台。作为国家战略科技力量的重要组成部分,高校在学科建设、人才培养和科学研究中对AI赋能的需求日益增强。此次合作旨在通过打造国产千卡集群,支撑学科创新,并为学校未来发展提供高性能与智能计算平台保障。
此次合作标志着国产算力应用重心的进一步细化:
* AI4S(AI for Science):此前海光在郑州国家超算互联网核心节点提及此方向,侧重于大模型训练规模,遵循Scaling Law,对Scale-out规模、系统互联及整体调度能力要求极高,且传统科学计算多强调64位高精度,现逐渐引入混合精度以兼顾效率。
* AI4E(AI for Engineering):本次合作的重点。工程计算场景长期积累了大量商业软件和历史代码(如CAD、CAE、Fluent等)。因此,AI4E不单纯追求数万卡规模,更强调平台的可迁移性、可移植性、实时性及应用适配效率,要求平台既能支撑高精度工程计算,又能提供利于工程软件迁移转化的环境。
此次同济千卡集群的落地,是国产算力从支撑科学计算和模型能力,向工程科研和工程软件生态适配延伸的重要探索。
解决痛点:降低迁移门槛与成本
海光信息总裁沙超群指出,高校在算力应用中普遍面临适配难、迁移成本高及算力支撑不足等痛点。将应用迁移至国产算力平台,需依托底层架构兼容、主流开发生态适配、算子/库/运行时优化以及源码迁移机制等多重能力支撑。
基于海光CPU/DCU“双芯”底座,海光采取了以下策略:
1. 降低适配门槛:延续x86架构优势,兼容主流开发生态。
2. 场景化优化:针对计算密集型、数据密集型、通信密集型等不同工程场景进行系统优化,提升既有工程应用在国产算力环境中的适配效率和运行稳定性。
合作模式:从合同关系到产业结合
海光信息副总裁吴宗友向观察者网表示,此次合作超越了单纯的合同关系,是一种深度的产业结合。其核心逻辑在于:学校将应用需求反馈给企业,企业据此调整系统能力。通过前期充分交流,双方提供贴合定制化需求的系统,从而显著提升用户效率。
吴宗友透露,未来海光与高校的合作将以工程为起点,先在同济大学校内拓展更多领域,随后走出校园,与更多高校开展更深入的合作。
未来展望:系统级能力竞争
随着AI应用进入深水区,沙超群预测,CPU将在智能体编排、上下文调度、任务记忆及算力资源管理中承担更多职责。未来的AI算力竞争将不再局限于单颗GPU的性能比拼,而是演变为由CPU、DCU、互连、网络、存储和整机系统共同构成的系统级能力竞争。
面向未来国产算力建设,海光提出了三大方向:系统能力提升、生态开放、软硬件协同。具体举措包括:
* 依托CPU、DCU“双芯”底座,结合高速交换芯片、RDMA网卡和交换整机,以及“光合组织”生态,形成面向千卡、万卡规模的国产智算系统方案。
* 持续推进DCU、软件栈和CPU高速互联能力的开放。
* 联合产业链伙伴、大模型厂商及AI优化合作伙伴,全面提升国产算力在模型训练、推理服务、AI4S扩展及AI4E迁移适配等场景中的系统能力。
本文系观察者网独家稿件,未经授权,不得转载。
本文地址:https://www.xyaji.com/html/292d099707.html
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。