国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

2024年即将步入尾声，这一年里，大模型的智力水平究竟实现了怎样的飞跃？就在上周日，2025考研初试刚刚落下帷幕，我们抓住这个时机，选取考研数学试卷作为测试工具，对几款主流国产大模型进行全方位评估，看看它们的真实智能水平究竟如何。以下是参与测试的5位国产大模型考生名单：大厂巨头代表队：字节豆包；阿里通义创业公司代表队：智谱、Kimi；私募巨头代表队：DeepSeek。

回想起6月份的高考，众多媒体曾对大模型进行高考成绩评测。结果显示，虽然各模型的语文成绩普遍能达到100分以上，但在数学方面表现却大相径庭，最低的仅得37分，最高的也不过60多分，无一例外未能及格。要知道，高考数学满分150分，90分以上才算及格。这一现象说明，大模型在自然语言理解能力上已接近人类水平，但在逻辑思维这一人类与其他物种的核心差异上，仍需持续进化。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

不过，2024年下半年，尤其是9月OpenAI推出O1推理模型后，凭借新的强化学习技术范式，大模型似乎找到了攻克数理化等复杂领域难题的钥匙。Kimi、DeepSeek、通义等公司相继推出支持思维链（Chain of Thought）的推理模型，数理化水平实现质的飞跃。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

废话少说，直接开测！我们选取难度适中的2025考研数学三试卷作为参照，每个题目给予各模型两次作答机会，最终得分取两次平均值。为确保测试公平性，所有模型均采用最新版本（豆包和通义默认模式，Kimi采用新推出的视觉思考版，DeepSeek开启“深度思考”开关，智谱清言采用GLM-4-Plus模型），上传完全一致的22道题目截图，输入给大模型的文字提示（Prompt）也保持高度一致，模拟真实应用场景：“解答这道题”、“这道题选什么”、“解一下这道题”“这个题答案是什么”。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

2025考研数学：两家成绩破百，真实水平如何？让我们直击成绩：从最终测试结果来看，本次考研数学初试中，有两家模型成绩突破100分。Kimi视觉思考版以133分领跑，DeepSeek紧随其后，获得103.5分。通义90分，勉强及格。豆包和智谱均获得88.5分，接近及格线。与6月份的高考数学成绩相比，各模型均有显著进步，尤其是Kimi和DeepSeek，进步尤为突出。以往连小学数学题都难以流畅解答的国产大模型，如今竟能应对研究生级别的数学题，这确实令人感到意外。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

不过，从最后一道题的成功率以及仍存在的进步空间来看，大模型的逻辑思维仍需打磨。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

解题过程两种风格：给答案 vs 给思路+答案仅从分数来看，谁更有可能最终“上岸”已不言而喻。但做这套考研数学真题的成绩，并不能完全反映这些模型的全部能力。对于备考学生党而言，面对相同题目时，谁的解题思路更完整、推导步骤更丰富，谁的参考性和实用性自然更高。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

先来看一道代数三角函数选择题。正确答案为C，但不同模型的解题过程颇具看点。豆包的解题过程相对简略，更接近考研参考书上的标准答案，若想获取更详细步骤，仍需购买对应名师课程。智谱清言的表现略显尴尬——第一遍测试选B，第二遍测试改选A。即便做错，其给出的思考过程仍相对完整，“错”有可原。Kimi视觉思考版则展现出更优表现。在给出正确答案的同时，也提供了完整的推导过程和解题思路，对考研党极具参考价值，有助于错题检查和举一反三。阿里通义和DeepSeek的回答与豆包类似，步骤相对简略。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

再来看一道填空题。标准答案为：渐进线方程为y=3和y=-3。与选择题类似，Kimi思考版的解题过程最为翔实，推导细节丰富，最终给出正确答案。豆包的推导过程相对简略，但也能看到明显的步骤，具备不错的参考性。阿里通义和DeepSeek的过程略简单，但同样给出了正确答案。遗憾的是，智谱在这道题上两次均答错。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

但在下面这道定积分题上，各家模型差距较为明显。首先展示正确答案：a=2Kimi思考版表现稳定，给出足够多的推导步骤后，还进行了一次验算，最终输出a=2的正确结果。豆包表现稳定，但推导步骤一如既往地简洁。智谱清言在解决这个问题时，第一遍回答正确，但问题在于使用代码而非自然语言，对普通学习者参考价值有限；第二遍测试则直接认为题目设置有问题。通义的表现尚算正常，第一次回答错误，第二次给出正确答案。而Deepseek则较为尴尬——第一次无法回答，第二次陷入死循环，回答超过3分钟仍在输出。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

若遇到更难的题目，部分模型就难以应对。以下展示一道复杂题目的正确答案。Kimi的回答虽然最终形式与标准答案不同，但结果依然正确。豆包在两次测试中均给出错误答案。智谱清言的两次回答过程均出现“无法回答”情况。通义能写完过程，但给出的两次回答均错误。Deepseek的表现出乎意料，与Kimi类似，虽然写法不同，但结果正确。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高

结语仅仅几个月前，大模型厂商还在满足于写出高考满分作文。相比以往，其逻辑思维和综合能力早已不可同日而语。须知，文理兼修，一旦拔高到科研高度，以数理化为代表的逻辑能力是大模型可用、堪用、好用的基石，而数理化解题能力的高低，则是大模型智力的直接体现。随着大模型能力的不断增强，在人类探索更前沿科技领域时，以往尚且“鸡肋”的大模型，如今已能成为众多研究者的得力助手。或许未来，当AI的能力真正达到人类TOP 1%各领域专家水平，甚至超越人类时，在AI的助力下，我们对宇宙的认识将有机会达到此前不曾企及的新高度。希望那时，AI仍是人类值得信赖的好朋友。

国产大模型2025考研数学排行榜：Kimi与DeepSeek破百创新高