微软开源phi-4小模型 超越GPT-4o 商业化许可
微软研究院今凌晨震撼发布全新开源模型phi-4,正式揭开其作为目前最强小参数模型的神秘面纱。这款仅含140亿参数的phi-4,自去年12月12日首次亮相以来便备受瞩目,其卓越性能在多个权威基准测试中脱颖而出,不仅超越了OpenAI的GPT-4o,更在顶级开源模型Qwen 2.5 -14B和Llama-3.3-70B之上实现了碾压式胜利。在美国数学竞赛AMC的测试中,phi-4更是以惊人的91.8分遥遥领先,不仅击败了Gemini Pro 1.5、GPT-4o、Claude 3.5 Sonnet、Qwen 2.5等知名开闭源模型,其整体性能甚至可与4050亿参数的Llama-3.1相媲美。这一突破性成果终于迎来开源时刻,phi-4全面支持MIT许可证下的商业用途,为全球开发者带来前所未有的机遇。开源地址:https://huggingface.co/microsoft/phi-4/tree/main
HuggingFace官方团队对此盛况纷纷祝贺,官推盛赞phi-4是”有史以来最好的14B模型”,并期待其在Azure上实现无服务器功能。众多开发者表示,phi-4的小参数设计为创意写作领域带来革命性突破,其每秒约12个tokens的流畅运行速度更是在苹果M4 Pro笔记本上实现了完美适配。这款模型的横空出世,标志着人工智能领域在效率与性能之间找到了新的平衡点。
phi-4的卓越表现源于其创新的数据训练策略。与传统的网络爬取数据相比,phi-4采用高质量的合成数据进行预训练,这种结构化、逐步呈现的学习材料使模型能够更高效地掌握语言逻辑与推理过程。在数学问题解答中,合成数据可按解题步骤逐步展示,帮助模型深入理解问题结构与解题思路。此外,phi-4的合成数据生成严格遵循多样性、细腻性与复杂性、准确性、推理链等原则,涵盖50余种不同类型的合成数据集,通过多阶段提示流程、种子策划、改写与增强、自我修订等先进方法,累计生成约4000亿个未加权的tokens。
在数据筛选方面,微软研究团队从网络内容、授权书籍和代码库等多渠道收集数据,采用基于小分类器的过滤方法,并针对多语言数据(德语、西班牙语、法语、葡萄牙语、意大利语、印地语、日语等)进行专门处理,确保模型具备全球化的语言处理能力。预训练阶段,phi-4主要使用合成数据,同时辅以少量高质量有机数据,这种混合策略既强化了模型的推理与问题解决能力,又丰富了其知识储备。中期训练阶段,phi-4将上下文长度扩展至16384,并新增长于8K上下文的非合成数据样本及4K序列要求的合成数据集,显著提升了对长文本的处理能力。
后训练阶段是phi-4性能优化的关键。微软采用监督微调(SFT)和直接偏好优化(DPO)技术,使用约8B tokens的高质量数据(含40种语言)对预训练模型进行微调,并引入关键tokens搜索(PTS)技术生成DPO对,精准提升模型在推理任务中的表现。这种多维度优化策略使phi-4在学术基准测试中全面开花,在MMLU测试中取得84.8分的高分,在GPQA和MATH测试中超越GPT-4o,在数学竞赛相关任务中展现出惊人的推理能力。与其他类似规模模型比较,phi-4在12个基准测试中的9个上表现优于Qwen – 2.5 – 14B – Instruct,充分证明其技术领先性。