首 页 资讯 产业动态 发明·创新 探索·发现 科学麻辣烫 科技人物 专家讲坛 新基建 院士知播

首页>科技>资讯

破算力焦虑,万卡集群来帮忙

2025年02月05日 14:44  |  来源:人民政协网 分享到: 

人民政协网2月5日电 百度智能云于近日成功点亮昆仑芯三代万卡集群,业界认为,这一重大突破标志着百度在人工智能算力领域迈出了坚实一步。花旗银行发布研报称,DeepSeek、百度等中国模型展现出的高效和低成本优势,将有助于加速全球AI应用开发,并在全球引发更多技术创新,推动2025年人工智能应用的拐点。中国工程院院士、清华大学计算机系教授郑纬民也表示,当下构建国产自主万卡系统充满挑战,但“至关重要”。

过去一年,人工智能行业在努力降低大模型使用成本,但算力紧张一直是导致成本居高不下的重要因素之一。百度通过自研芯片和建设大规模集群,不仅解决了自身算力供应的问题,还为整个行业提供了新的思路和方向。

从算力上看,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足AI原生应用快速迭代的需求。 随着国产大模型的兴起,万卡集群也逐渐从“单任务算力消耗”到“集群效能最大化”过渡,通过模型优化、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,从而提升集群综合利用率,降低单位算力成本。

值得一提的是,在2024年9月完成升级的百度百舸AI异构计算平台4.0(以下简称“百舸平台”),在万卡集群的建设中发挥了重要作用:其构建了十万卡级别的超大规模HPN高性能网络,针对跨地域通信中的高延迟问题,通过优化的拓扑结构、多路径负载均衡策略及通信策略,实现了几十公里的跨地域通信;在通信效率上,百舸通过拥塞控制算法和集合通信算法策略,保障了网络的稳定性;在多芯混训方面,百舸能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池,当业务提交工作负载时,百舸可自动进行芯片选型,依据集群剩余的芯片资源,选择性价比最高的芯片来运行任务;在集群稳定性方面,百舸提供了全面的故障诊断手段,能够快速自动侦测到导致训练任务异常的节点故障。(崔吕萍)

编辑:李律杉