蚂蚁2900亿参数大模型国产芯片训练成本降20%

随着DeepSeek引发AI算力优化热潮,蚂蚁集团全面发力AI技术,基于中国AI芯片构建Infra平台,实现了模型技术突破。3月24日消息,WpBull.comAGI获悉,蚂蚁集团Ling Team团队近日利用AI Infra技术开发了两个百灵系列开源MoE模型Ling-Lite和Ling-Plus,前者参数规模达168亿,后者基座模型参数规模高达2900亿。相比之下,AI行业估计GPT-4.5参数量达1.8万亿,DeepSeek-R1参数规模为6710亿。论文显示,蚂蚁团队在模型预训练阶段使用较低规格的硬件系统,将计算成本降低约20%,每1万亿token成本仅为508万元人民币,最终实现与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能。相关技术成果论文已发表在预印版Arxiv平台上。

据彭博报道,该模型在训练阶段使用的是国产AI/GPGPU芯片产品,而非完全依赖英伟达芯片,但最终结果与英伟达H800芯片相似。3月24日下午,针对外媒关于蚂蚁百灵大模型训练成本的报道,蚂蚁集团对WpBull.comAGI等媒体回应称:蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得一定进展,也将逐步通过开源分享。这是蚂蚁集团首次详细披露其在AI算力层面的进展。

蚂蚁2900亿参数大模型国产芯片训练成本降20%

近年来,大语言模型发展迅速,尤其是DeepSeek热潮引发学界和业界对通用人工智能(AGI)的广泛讨论。混合专家(MoE)模型在特定任务中表现优异,但训练依赖高性能计算资源,成本高昂,限制了其在资源受限环境中的应用。蚂蚁Ling团队认为,虽然MoE模型训练对高性能AI芯片(如H100和H800)需求大,但低性能加速器更易获取且单位成本效益高,因此需要能在异构计算单元和分布式集群间切换的技术框架。在AI Infra部分,团队在跨集群、跨设备的兼容和可靠层面进行性能优化,设定的目标是”不使用高级GPU”来扩展模型。

具体来说,蚂蚁Ling团队在模型训练环境、优化策略、基础设施、训练过程、评估结果、推理等层面都进行优化和落地。预训练阶段,团队构建了约9万亿token的高质量语料库,采用创新MoE架构,分析缩放规律确定超参数,多阶段训练并应对瞬时尖峰问题。通过优化模型架构和训练策略,如选择匹配架构、集成训练框架、开发XPUTimer和EDiT策略等,提高训练效率。论文显示,在AI异构计算平台上,团队将多个训练框架集成到统一分布式深度学习框架DLRover中。同时开发了轻量级调试工具XPUTimer,有助于快速高效进行任务性能分析,将内存使用量减少90%。EDiT(弹性分布式训练)在各种配置下,训练时间最多可减少66.1%。

蚂蚁2900亿参数大模型国产芯片训练成本降20%

在存储优化中,通过存储与训练流程的协同设计,提升MoE场景下的I/O效率。通过5000个加速器MoE训练任务,将检查点写入延迟降低50%,减少一半时间消耗,同时将训练节点上的峰值内存消耗降低60%。蚂蚁技术团队表示,利用Ling-Plus,在五种不同硬件配置上对9万亿token进行预训练,其中使用高性能硬件配置(配置D)训练1万亿token的预训练成本约为635万元人民币,但通过优化方法使用低规格硬件将成本降至508万元左右,节省近20%的成本。这一结果证明了在性能较弱的硬件上训练最先进的大规模MoE模型的可行性,为基模型开发提供更灵活、更经济的方法。

与英伟达的初衷背道而驰。英伟达CEO黄仁勋认为,即使DeepSeek等更高效的模型出现,计算需求仍将增长,AI大模型需要更好的芯片来创造更多收入,而非更便宜的芯片削减成本。他坚持打造具有更多处理核心、晶体管和更大内存容量的高性能GPU芯片和”AI工厂”。

蚂蚁2900亿参数大模型国产芯片训练成本降20%

结果显示,在英语理解方面,Ling-Lite模型在一项关键基准测试中表现优于Meta的Llama 3.1-8B模型。在中文基准测试中,Ling-Lite和Ling-Plus模型均优于DeepSeek同类模型。”Ling-Plus和Qwen2.5-72B-Instruct在安全性方面表现突出,且Ling-Plus在错误拒绝方面表现更佳。DeepSeek系列模型的错误拒绝现象最少,但部分安全性较低。Ling-Plus在安全性和拒绝率之间表现出更好的整体平衡,在这些指标的平均值方面取得了最好的结果。”论文表示。

据悉,蚂蚁百灵大模型Ling-Plus和Ling-Lite计划开源,并应用于医疗、金融等行业领域。目前,蚂蚁拥有三款AI助手管家产品——生活助手”支小宝”、AI金融管家”蚂小财”,以及刚刚发布的AI医生助手等产品和解决方案。不过,蚂蚁也在论文中表示,大模型训练是一个具有挑战性且资源密集的过程,经常伴随着各种技术困难,错误和异常很常见,有些相对容易解决,而有些则需要大量时间和精力。Ling系列模型在训练阶段面临稳定性挑战,即使是硬件或模型结构的微小变化也会导致问题,包括模型错误率的大幅上升。

针对这份论文,彭博行业研究高级BI分析师Robert Lea表示,蚂蚁的这一成果强调了中国AI创新能力的不断增强,以及技术进步的步伐加快。如果内容得到证实,这将凸显中国正在朝着AI自给自足的方向迈进,因为中国正在转向成本更低、计算效率更高的模型,以绕过英伟达芯片的出口管制。

文章网址:https://www.wpbull.com/ai/23365.html