青年团队攻坚算力底座:79 天驻机房,只为实现 0.1% 效率提升

2026-04-06 16:07:12

智算科技万卡集群攻坚团队合影。 (受访者供图)

随着风扇持续轰鸣,上万张GPU(图形处理器)与几十万根高速网络线缆在约30个模块化机房里交织运转——在位于松江的仪电智算中心,记者直观感受到万卡集群的庞大。

万卡集群的背后,是一支平均年龄仅32岁的青年攻坚团队——上海智能算力科技有限公司智算科技万卡集群突击队。他们所搭建的,不只是算力基础设施,更是支撑未来智能世界运转的底座。

把上万张GPU变成“一个大脑”

算力作为数字经济的重要底座,主要分为通用算力、智能算力和超算算力。其中,智能算力依托GPU,为AI训练和推理提供核心支撑。所谓“万卡集群”,就是将一万张甚至更多顶级GPU,通过高速网络与软硬件系统连接起来,形成一个统一调度的“超级AI计算大脑”。但真正的难点,并不在“堆数量”,而在“做协同”——让不同架构、不同代际、不同厂商的GPU,在极端规模下像一个人一样高效协同。

建设万卡集群时,机房基础环境、网络、单机可靠性、调度系统等都是需要逐一攻破的痛点。“以机房为例,散热、供电、冷却、洁净度,任何一个环节失守,都可能让集群无法运行。一粒细小的灰尘进入光模块,造成的后果都难以想象。”上海仪电集团旗下上海智能算力科技有限公司系统工程中心总监、团队负责人胡宝群告诉记者,从冷热通道设计、下沉式地板到天花板回风系统,每一处细节都经过精密计算。供电系统不仅要够用,更要实现负载均衡与多重冗余,即便单路故障也不影响整体运行。冷却系统则需反复测算,确保极端负载下温度依然可控。

网络侧同样是一项“精密工程”。团队采用Spine-Leaf架构,持续优化交换机配置与通信协议,追求极致的低延迟与无损传输。每一根光纤、每一个端口都需全覆盖测试,确保NCCL等通信库运行效率达到极限。此外,每批服务器上线前都要经历高强度“铁血压测”,模拟真实训练场景中的计算、内存与I/O压力,提前暴露隐患。如今,团队已建立起快速故障诊断与预测性维护机制,将单机故障率压降至最低。

应对调度与稳定性的极限挑战

如果说“建起来”只是第一步,那么,“稳运行”才是真正的难关。“AI算力芯片的故障率远高于传统IT设备。在大模型训练过程中,哪怕1分钟的中断,都可能导致数十小时的训练成果付诸东流。”胡宝群表示,在万卡集群中,算力调度的复杂程度,堪比让上万架无人机在同一片空域高速飞行且不发生碰撞。任何微小偏差,都可能带来系统级影响。

为此,智算科技系统平台部负责人翟雨佳带领团队,把不同厂商、不同代际,甚至国产和进口卡全部拉进同一个集群,让它们像一个整体一样协同工作。他们首创的“动态感知调度方案”,使训练效率飙升,实现混合架构万卡集群调度技术的自主可控。

为了0.1%的效率提升,团队甚至曾连续79天驻守机房,吃住一体,反复打磨代码、优化算法。在紧急任务中,他们打破传统线性流程,采用“并行施工+边测边调”的方式,争分夺秒推进项目进度。最终,集群实现99.99%的高可用性,相当于全年故障时间减少378小时。这一稳定能力,已支撑多模态大模型训练达到国际领先水平,同时保障自动驾驶模型每日100万公里虚拟路测,以及气象大模型提前7天预警极端天气。

翟雨佳表示,为了更高效运维万卡集群,团队目前也在研发AI智能体,让万卡集群相互协作配合,快速预测问题,做到底层算力保障。“我们现在基本上可以做到分钟级甚至秒级定位故障,在5分钟内恢复业务。核心目标是让底层算力基础设施像水电煤一样稳定供给。”

要做下一代工程师

在这座“数字发电站”的背后,是一支成立于2023年的百余人团队,平均年龄仅32岁。团队中,七成成员来自互联网大厂,六成为硕士及以上学历,还有多位海外归来的技术专家。

“我们要做下一代工程师,而不是当代工程师。”胡宝群这样定义团队的方向——持续自我革新,从工具链到生产方式,再到价值创造路径,都要不断被重构。目前,这支队伍已完成数十万张高性能算力卡的部署,适配多款国产GPU。

万卡集群是近几年随着大模型发展而提出的新需求,这支队伍正是在攻坚实战中锻炼出来的。智算科技董事长、总经理、党支部书记孙跃表示:“作为一家平台型的链主企业,我们不光要建万卡集群,更要赋能国产大模型及AI+应用,包括国家战略任务的实施和推动。我们要牵引产业链上的国产软硬件厂商、GPU和网络交换设备企业,带动上下游共同发展。”

团队小传

上海智能算力科技有限公司智算科技万卡集群攻坚团队,一支百余人组成的青年尖兵,平均年龄仅32岁。承担上海市多项智算集群建设任务,提供GPU算力资源与智能调度平台,服务重点大模型企业及顶尖研究机构。2025年获全国科技创新青年突击队岗位建功竞赛特等奖。