DeepSeek引领移动AI变革 小模型成主流趋势
人工智能正以前所未有的速度重塑科技领域,彻底颠覆着人们对AI的认知。在移动端,这场变革正加速推进。2月20日,高通发布的最新AI白皮书《AI变革正在推动终端侧推理创新》,深入探讨了端侧高质量小语言模型和多模态推理模型的发展前景。随着AI逐步走向大规模落地,端侧大模型推理不仅展现出更高的可靠性,还显著提升了数据安全性。而随着技术的飞速发展,其优势正不断显现。
高通指出,四大趋势正在引领端侧AI变革:当前先进的AI小模型已具备卓越性能。模型蒸馏和新型AI网络架构等创新技术,能够在不牺牲质量的前提下简化开发流程,使新模型表现迅速提升,接近云端大模型的水平;模型参数规模正加速缩小。先进的量化和剪枝技术,让开发者能在不影响准确性的情况下大幅压缩模型参数;开发者正在边缘侧打造更丰富的应用。随着高质量AI模型激增,文本摘要、编程助手和实时翻译等特性将在智能手机等终端普及,推动AI跨边缘侧规模化部署的商用化;AI正成为新的用户界面。个性化多模态AI智能体将简化交互方式,高效跨越各种应用完成任务。
在前沿大模型技术持续突破的同时,科技行业已将重心转向边缘侧的高效部署。训练成本下降、快速推理部署以及针对边缘环境的创新,催生了大量更智能、更小型、更高效的模型。这些技术进步正逐渐影响芯片厂商、开发者和消费者,形成新的行业趋势。
模型向小已成为发展必然趋势。近年来大语言模型的发展清晰地呈现出几个显著趋势:从拼参数规模到拼应用、从单一模态到多模态、轻量化模型的崛起以及向终端侧部署的倾斜。尤其是DeepSeek V3、R1的推出,完美体现了AI行业的发展趋势,其带来的训练成本下降、快速推理部署和边缘环境创新,正推动高质量小模型的爆发式增长。
深究其原因,向小模型的转变是多重因素共同作用的结果。首先,模型网络架构不断创新,从早期的Transformer到混合专家模型(MoE)和状态空间模型(SSM)并存,大模型开发过程中的计算开销和功耗持续降低。因此,越来越多的模型开始采用新架构。其次,知识蒸馏技术的应用,成为开发高效「基础和特定任务」小模型的关键。通过将复杂教师模型的知识迁移到更小的学生模型中,一方面显著减少模型参数量和计算量,简化训练过程,降低存储需求,适合部署在资源受限的设备上;另一方面,学生模型同样能获得丰富知识,并保持模型准确性和泛化能力。Meta Llama 700亿参数模型与DeepSeek对应蒸馏模型的LiveBench AI基准测试平均结果对比,直观展示了这一优势。第三,量化、压缩和剪枝等大模型优化和部署技术持续改进,进一步推动了模型规模向小。这些技术同样能显著降低模型的计算和存储需求,同时保持较高性能。
在底层架构和技术层面的创新进步下,小模型的能力正趋近甚至超越体量庞大的前沿大模型。例如,在GPQA基准测试中,基于通义千问模型和Llama模型的DeepSeek蒸馏版本,取得了与GPT-4o、Claude 3.5 Sonnet和GPT-o1 mini等相当甚至更高的表现。从整个行业来看,技术进步推动了高质量生成式AI模型的激增。根据Epoch AI统计,2024年发布的AI模型中,千亿规模以下的模型占比超过75%,成为主流。图源:Epoch AI,2025年1月。因此,在成本与算力需求、性能权衡等多方面因素的驱动下,小模型正取代大模型成为众多企业和开发者的首选。当前,包括DeepSeek R1、Meta Llama等主流模型都推出了小模型版本,并在主流基准测试和领域特定任务测试中表现出色。特别地,小模型更快的推理速度、更少的内存占用和更低功耗,使其成为手机、PC等终端侧部署的理想选择。在AI领域,终端侧模型参数通常在10亿到100亿之间,而最近发布的一些新模型参数规模已下降到20亿以下。随着模型参数规模持续下降、小模型质量提升,参数已不再是衡量模型质量的重要指标。相对的,现在旗舰智能手机运行内存配置普遍在12GB以上,理论上已足够支撑许多模型运行。同时,针对主流配置手机的小模型也在不断涌现。
随着高质量小模型加快在手机、PC等终端侧大规模部署,AI推理功能以及多模态生成式AI应用(如文档摘要、AI图像生成、实时语言翻译等)将在终端侧广泛落地,为AI技术向更广泛端侧普通用户的普及提供重要支持。
在推动端侧AI落地的过程中,高通始终走在行业前沿。凭借高能效的芯片设计、超前部署的AI软件栈及面向边缘应用的全面开发支持等技术专长,高通正在引领这一变革并从中受益。高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉(Durga Malladi)表示,如今的小模型性能已超越一年前推出的云端大模型,「我们关注的焦点已不再是模型本身,而是演进到终端上的应用发展。随着终端侧可以运行越来越多高质量的AI模型,AI应用开始涌现。AI正在重新定义所有终端的用户界面,这也意味着AI正在成为终端侧新的UI。」
高通认为,在AI定义的新时代,从包括语音、文本、图像的多种传感器数据,将会首先经由AI智能体进行处理——而不是直接应用于某个App。智能体获取信息后会将任务分配给不同的后台应用,这个过程对于用户来说是无感的。在常规的手机系统里,开发者可用的终端侧模型数量正在激增,AI智能体需要从终端侧能够获取的大量AI模型中选择所需的模型完成任务。这个过程将大幅降低交互的复杂性,实现高度个性化的多模态能力,并可以跨越各种应用完成任务。对于终端用户来讲,AI智能体就是唯一在前端与他们交互的UI,而所有实际应用的处理都是在后台完成的。利用高质量小模型的能力,智能手机这样的终端可以实现交互的创新。
高通在AI从训练向大规模推理转型,以及从云端到端的扩展方面,具有一定战略优势:高性能、高能效芯片设计:高通提供了集成定制CPU、NPU、GPU和低功耗子系统的行业领先系统级芯片,能够在终端侧提供高性能、高能效AI推理,在保持电池续航和整体能效表现的同时处理复杂AI任务;覆盖所有关键边缘细分领域的可扩展性:高通的可扩展硬件、软件解决方案已赋能数十亿智能手机、汽车、XR头显和眼镜、PC以及工业物联网等终端,为广泛的变革性AI体验提供了基础;活跃的生态系统:通过高通AI软件栈、高通AI Hub和战略性的开发者协作,高通面向跨不同边缘终端领域的模型部署提供工具、框架和SDK,赋能开发者在边缘侧加速采用AI智能体和应用。
高通既预判了终端侧模型的爆发,同时也推动了边缘AI推理在跨终端设备上的落地。高通公司总裁兼CEO安蒙(Cristiano Amon)在近期的一季度财报电话会议中分享了他对当前AI行业趋势的看法:「近期的DeepSeek R1及其他类似模型展示了AI模型的发展速度越来越快,它们变得更小、更强大、更高效,并且可以直接在终端侧运行。事实上,DeepSeek R1的蒸馏模型在发布仅几天内就能在搭载骁龙平台的智能手机和PC上运行。」
随着进入AI推理时代,模型训练仍将在云端进行,但推理将越来越多地在终端侧运行,使AI变得更便捷、可定制且高效。这将促进更多有针对性的专用模型和应用的开发及采用,并因此推动各类终端对计算平台的需求。DeepSeek R1的爆火恰如其分地验证了此前高通对终端侧AI的判断。高通凭借其先进的连接、计算和边缘AI技术以及独特的产品组合,不仅在终端侧AI领域保持了高度的差异化优势,还为其实现混合AI愿景提供了强有力的支持。未来,端侧AI将在各个行业中发挥越来越重要的作用。