豆包深度思考模式实测:能否超越DeepSeek的推理能力?

字节跳动旗下AI助手豆包正在小范围测试深度思考模型,据豆包相关负责人向极客公园透露,当前测试的是自家深度思考模型的不同实验版本。另有消息称,豆包正在测试的深度思考模型是基于豆包1.5基座模型研发而成。实际上,早在1月中旬豆包大模型团队发布豆包1.5Pro时,就已宣布了深度推理模型Doubao-1.5-pro-AS1-Preview的存在,并强调「在完全不使用其他模型数据的条件下,通过RL算法的突破和工程优化,充分发挥Test Time Scaling的算力优势,完成了RL Scaling,研发了Doubao深度思考模式。」极客公园实测发现,与豆包对话时后者生成的答案确实开始显示推理过程的思维链,但稳定性尚不理想。目前在豆包对话页面也尚未出现「深度思考」功能的正式入口。

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

从2月22日开始,豆包在中国区苹果应用商店免费APP下载排行榜上的排名被腾讯旗下AI应用「腾讯元宝」超越,跌至第三位(第一名仍是deepseek)。随着腾讯、百度多家应用接入deepseek,字节豆包的未来发展备受关注,如今答案正在逐步显现。

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包也加入「深度思考」赛道?最早具备深度思考能力的模型是OpenAI于2023年12月推出的o1系统,但其采用闭源策略且仅限付费用户使用(每月200美元)。DeepSeek则通过开源策略、成本降低以及交互创新,成为首个将深度思考能力大规模普及的AI公司。DeepSeek于2024年11月20日发布R1-Lite-Preview,成为国内首个对标o1的推理模型,并于2025年1月20日开源R1模型。R1模型的核心创新点包括:思维链透明化、完整推理过程展示(含自我质疑、假设验证等拟人化思考路径)、低成本与开源。R1模型的推理成本仅为OpenAI o1的1/27,且代码完全开放。

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

DeepSeek的深度思考模式通过显性化AI模型的推理过程来增强用户理解,思维链(Chain of Thought, CoT)是支撑这一模式的核心技术。简单来说,深度思考模式让用户能直观看到模型的思考过程,其中思维链的展示即COT(Chain of Thought)——思维链是模拟人类思考过程而训练出的,通过让模型输出中间步骤(如自我质疑和反思)来呈现,虽然只是文字序列,但模拟了人类的思考逻辑。在深度思考模式下,用户不仅能获得AI的最终答案,还能观察模型解决问题的完整逻辑链条,包括自我质疑、假设验证、错误修正等步骤。例如在解决数学题时,模型会展示从问题拆解、多方法验证到最终结论的全过程。结合实时联网功能后,模型还能抓取最新信息并进行逻辑整合。

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

25日Anthropic发布Claude 3.7 Sonnet混合推理模型,阿里云Qwen推理模型「QwQ-Max预览版」也正式亮相。笔者让豆包对这两款推理模型进行评价,豆包展示了完整的思考过程,包括搜索资料、分析比较和最终结论。思考过程的可视化让用户能清晰看到模型的推理步骤,而不仅仅是最终结果,从而增强用户对模型输出结果的信任感。

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包vs deepseek,各有特色由于仍在测试中,目前在豆包对话页面暂未显示「深度思考」功能的入口,输入消息时也没有类似其他接入deepseek产品的选择框来开启「深度思考」功能,只是部分被灰度测试的用户在提问时会触发该功能。笔者选取几个问题同时询问豆包和deepseek,观察两者在「深度思考」上的表现差异。

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

经典数学问题:「9.11和9.9谁大」先看豆包的思考过程:在测试中,笔者发现豆包的「深度思考」模式出现并不稳定。第一次输入「9.11和9.9谁大」后,豆包仅简单回应;但在笔者再次输入相同问题尝试触发「深度思考」模式时,确实出现了详细思考过程。豆包贴心地考虑了多种用户未理解前答案的可能性,再给出判断方法最后输出结果。

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

再看deepseek的思考过程:虽然这是一个看似简单的问题,deepseek的思考过程同样非常详细,比豆包的思考过程更全面。两者都遵循了小数比较的基本规则并采用多种方法验证;不同点在于豆包注重教学引导和考虑用户可能的误解,而DeepSeek则更强调自我质疑和反复验证,思考过程更复杂。

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

哲学问题:意识的本质是什么?AI会获得自我意识吗?先看豆包的回答:再来看deepseek的回答:DeepSeek的回答分为科学理论、AI意识路径、伦理框架和解决路径四个部分,引用了神经科学、量子理论等,还提到了法律案例和具体数据;而豆包的回答更偏向哲学理论分类,列举了物理主义、二元论等,并讨论了支持与反对AI权利的观点,但未深入技术细节。两者都承认意识本质尚无共识,也都提到了哲学和科学理论、伦理问题,不同之处在于深度和技术细节——DeepSeek更技术导向,涉及神经形态计算、量子封印技术等;豆包更侧重哲学流派和现有伦理指南。

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

通过本次实测,我们看到了豆包在深度思考模式上的初步表现。虽然目前处于测试阶段,且功能的稳定性和入口尚未完全开放,但其对推理过程的初步展示已为用户带来了更直观的理解路径。

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

豆包深度思考模式实测:能否超越DeepSeek的推理能力?

文章网址:https://www.wpbull.com/ai/22969.html