DeepSeek-R1开源模型性能惊艳对标OpenAI o1

昨晚,大模型领域再次掀起波澜,月之暗面发布了全面对标OpenAI满血版o1的多模态思考模型K1.5,在数学、代码和多模态推理能力上展现出惊人实力。与此同时,近期备受瞩目的大模型DeepSeek正式推出DeepSeek-R1,同样在数学、代码和自然语言推理等任务上与OpenAI o1正式版比肩。去年12月开源的DeepSeek-V3刚刚引发热潮,实现了多项技术突破,而这次开源的R1大模型更是让AI研究者们感到震惊,纷纷猜测其背后的技术奥秘。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

AutoAWQ作者Casper Hansen透露,DeepSeek-R1采用了一种创新的多阶段循环训练方式:基础→RL→微调→RL→微调→RL。UC Berkeley教授Alex Dimakis则认为DeepSeek已处于行业领先地位,美国公司可能需要奋起直追。目前,DeepSeek已全面上线R1版本,涵盖网页端、App端和API端,用户可通过以下链接体验网页端对话界面:https://www.deepseek.com/

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

此次DeepSeek发布了两个参数为660B的模型——DeepSeek-R1-Zero和DeepSeek-R1,并选择开源模型权重,允许用户使用R1训练其他模型。在技术层面,R1在后训练阶段大规模应用强化学习(RL)技术,仅用少量标注数据即可显著提升模型推理能力。以下是R1与o1-1217、o1-mini、自家DeepSeek-V3在多个数据集上的性能对比图,可见R1与o1-1217不相上下,互有胜负。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

此外,DeepSeek-R1还蒸馏出六个小模型,参数从小到大分别为1.5B、7B、8B、14B、32B和70B,这些模型同样完全开源,旨在回馈开源社区,推动”Open AI”发展。模型下载地址:https://huggingface.co/deepseek-ai?cnotallow=f18057c998f54575cb0608a591c993fb

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

在性能方面,蒸馏后的R1 32B和70B版本远超GPT-4o、Claude 3.5 Sonnet和QwQ-32B,并逼近o1-mini。对于开发者关心的DeepSeek-R1 API价格,可以说是一如既往地亲民。DeepSeek-R1 API服务的定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。与o1的API定价(每百万输入tokens 15美元、每百万输出tokens 60美元)相比,DeepSeek展现出极高的性价比。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

DeepSeek秉持开源到底的决心,将R1模型的训练技术全部开放,并放出背后的研究论文。论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

以往的研究主要依赖大量监督数据提升模型性能,而DeepSeek的开发团队开创了全新思路:即使不用监督微调(SFT)作为冷启动,通过大规模强化学习也能显著提升模型推理能力。如果再加上少量冷启动数据,效果会更好。为了实现这一点,他们开发了DeepSeek-R1-Zero。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

DeepSeek-R1-Zero的独特设计主要体现在三点:首先采用群组相对策略优化(GRPO)降低训练成本,GRPO无需使用与策略模型同样大小的评估模型,而是直接从群组分数中估算基线。对于每个输入问题q,GRPO算法会从旧策略中采样一组输出{o1, o2, …, oG},形成评估群组,然后通过最大化目标函数优化策略模型。其中,优势值A_i通过标准化每个输出的奖励来计算。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

其次是奖励设计。如何设计奖励,决定着RL优化的方向。DeepSeek给出的解法是采用准确度和格式两种互补的奖励机制。准确度奖励用于评估回答的正确性,在数学题中,模型需要用特定格式给出答案以便验证;在编程题中,则通过编译器运行测试用例获取反馈。第二种是格式奖励,模型需要将思考过程放在”和”这两个特定标签之间,提升输出的规范性。该团队没有使用常用的神经网络奖励模型,是因为在大规模强化学习过程中,模型可能会出现”作弊”问题。同时也避免了重新训练奖励模型需要额外资源,简化了训练流程。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

第三点是训练模板,在GRPO和奖励设计的基础上,开发团队设计了如表1所示的简单模板来引导基础模型。这个模板要求DeepSeek-R1-Zero先给出推理过程,再提供最终答案。这种设计仅规范了基本结构,不对内容施加任何限制或偏见,比如不强制要求使用反思性推理或特定解题方法。这种最小干预的设计能够清晰地观察模型在RL的进步过程。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

DeepSeek-R1-Zero的提升也非常显著。如图2所示,做2024年的AIME数学奥赛试卷,DeepSeek-R1-Zero的平均pass@1分数从最初的15.6%显著提升到了71.0%,达到了与OpenAI-o1-0912相当的水平。在多数投票机制中,DeepSeek-R1-Zero在AIME中的成功率进一步提升到了86.7%,甚至超过了OpenAI-o1-0912的表现。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

DeepSeek-R1-Zero在训练过程中展现出了显著的自我进化能力。它学会了生成数百到数千个推理token,能够更深入地探索和完善思维过程。随着训练的深入,模型也发展出了一些高级行为,比如反思能力和探索不同解题方法的能力。这些都不是预先设定的,而是模型在强化学习环境中自然产生的。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

特别值得一提的是,开发团队观察到了一个有趣的”Aha Moment”。在训练的中期阶段,DeepSeek-R1-Zero学会了通过重新评估初始方法来更合理地分配思考时间。这可能就是强化学习的魅力:只要提供正确的奖励机制,模型就能自主发展出高级的解题策略。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

不过DeepSeek-R1-Zero仍然存在一些局限性,如回答的可读性差、语言混杂等问题。为了解决这些问题,开发团队针对R1构建并收集了少量的长CoT数据,以作为初始RL actor对模型进行微调。为了收集此类数据,开发团队探索了几种方法:以长CoT的少样本提示为例、直接提示模型通过反思和验证生成详细答案、以可读格式收集DeepSeek-R1-Zero输出、以及通过人工注释者的后处理来细化结果。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

DeepSeek收集了数千个冷启动数据,以微调DeepSeek-V3-Base作为RL的起点。与DeepSeek-R1-Zero相比,冷启动数据的优势包括:可读性,DeepSeek-R1-Zero的一个主要限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏markdown格式来为用户突出显示答案。相比之下,在为R1创建冷启动数据时,开发团队设计了一个可读模式,在每个响应末尾包含一个摘要,并过滤掉不友好的响应。潜力,通过精心设计具有人类先验知识的冷启动数据模式,开发团队观察到相较于DeepSeek-R1-Zero更好的性能。开发团队相信迭代训练是推理模型的更好方法。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

在利用冷启动数据上对DeepSeek-V3-Base进行微调后,开发团队采用与DeepSeek-R1-Zero相同的大规模强化学习训练流程。此阶段侧重于增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中。为了缓解语言混合的问题,开发团队在RL训练中引入了语言一致性奖励,其计算方式为CoT中目标语言单词的比例。虽然消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类偏好,更具可读性。

DeepSeek-R1开源模型性能惊艳对标OpenAI o1

最后,开发团队将推理任务的准确率和语言一致性的奖励直接相加,形成最终奖励。然后对微调后的模型进行强化学习(RL)训练,直到它在推理任务上实现收敛。

当面向推理导向的强化学习收敛时,开发团队利用生成的检查点为后续轮次收集SFT(监督微调)数据。此阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。开发团队通过从上述强化学习训练的检查点执行拒绝采样来整理推理提示并生成推理轨迹。此阶段通过合并其他数据扩展数据集,其中一些数据使用生成奖励模型,将基本事实和模型预测输入DeepSeek-V3进行判断。此外,开发团队过滤掉了混合语言、长段落和代码块的思路链。对于每个提示,他们会抽取多个答案,并仅保留正确的答案。最终,开发团队收集了约60万个推理相关的训练样本。

为了进一步使模型与人类偏好保持一致,这里还要实施第二阶段强化学习,旨在提高模型的有用性和无害性,同时完善其推理能力。具体来说,研究人员使用奖励信号和各种提示分布的组合来训练模型。对于推理数据,遵循DeepSeek-R1-Zero中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程;对于一般数据,则采用奖励模型来捕捉复杂而微妙的场景中的人类偏好。最终,奖励信号和多样化数据分布的整合使我们能够训练出一个在推理方面表现出色的模型,同时优先考虑有用性和无害性。

蒸馏:让小模型具备推理能力为了使更高效的小模型具备DeekSeek-R1那样的推理能力,开发团队还直接使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行了微调。研究结果表明,这种简单的蒸馏方法显著增强了小模型的推理能力。

得益于以上多项技术的创新,开发团队的大量基准测试表明,DeepSeek-R1实现了比肩业内SOTA推理大模型的硬实力,具体可以参考以下结果:更多技术细节请参阅原论文。

文章网址:https://www.wpbull.com/uncategorized/8769.html