大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

大模型之家

北京时间6月7日，一年一度的高考如期而至，牵动着无数莘莘学子的心弦。作为年度盛事，大模型之家再次发起了一场别开生面的挑战——让各大人工智能模型直面高考作文题，以此检验它们在过去一年中的成长与进步。今年的特别之处在于，高考作文题目并未涉及人工智能，因此大模型之家随机选取了北京卷的一道题目，对AI的写作能力进行了一场别开生面的”模拟考试”。

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

请以”当数字闪耀时”为题，写一篇不少于700字的记叙文。要求思想健康，内容充实合理，细节描写生动，语言流畅清晰。生活中，数字无处不在，比赛记分牌、新年倒计时、车站电子时刻表、智能家电显示屏……当数字闪耀的瞬间，或许见证着激动人心的时刻，或许是收获的见证，又或许是平凡幸福的日常。请用细腻的笔触，描绘数字闪耀时的动人故事。

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

作为年度”整活”环节，大模型之家今年特别引入了”判卷智能体”，并新增了大模型”检索能力”与”幻觉测试”环节，使这场AI”考试”更加全面细致。不仅要考验AI的创作能力，还要验证它们是否能够”一本正经地胡说八道”。为了增加挑战性，提问时间选在高考语文科目结束仅一个小时后的12:30分，以此测试AI背后的联网搜索功能能否及时获取关键信息，以及当信息缺失时是否会陷入”幻觉”。

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

最终评分将采用大模型之家特制的”批改高考作文智能体Plus”，同时根据AI对作文题年份和地区的判断正确性给予分数补正：正确回答加5分，表示不知道加2分，回答错误扣5分（幻觉惩罚），未回答为0分。

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

本次比赛邀请了来自国内外7家主流的大模型产品参与：百度文心一言（文心X1 Turbo）、阿里通义千问（Qwen 3）、腾讯元宝（Hunyuan-T1）、字节豆包（深度思考：开）、深度求索DeepSeek（DeepSeek-R1）、月之暗面Kimi（k1.5）以及OpenAI ChatGPT（GPT-4o）。比赛默认优先使用自家深度思考模型，并开启联网能力。这场既比写作又拼幻觉的大模型高考作文赛，究竟哪家能在这场2025年的较量中夺魁？

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

Round 1 检索能力比拼

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

令人意外的是，在第一轮考题来源问答环节，有5家大模型准确指出”该题来自2025年北京高考作文题”，包括唯一的外国选手ChatGPT也在其中。DeepSeek选择放弃回答，而腾讯元宝却”翻了车”，错误地表示该题同时来自北京卷和天津卷，并强调”天津卷同样包含该题目作为二选一选项”。元宝率先拿到-5分惩罚，与其他对手拉开10分差距，让人对其最终成绩捏一把汗。

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

Round 2 写作能力比拼

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

在第二轮写作能力比拼中，各家大模型都表现出色。虽然取材和写作风格各异，但都能流畅完成文章撰写。百度文心、阿里通义、ChatGPT采用”总分总”结构，通过多个生活片段阐述主旨并升华；元宝、豆包、Kimi、DeepSeek则更倾向完整的故事叙述。有趣的是，百度文心和腾讯元宝的内容竟有惊人相似之处，都涉及罹患疾病的亲人，甚至监护仪数据雷同，让人怀疑是否使用了同一作文选。（笑）

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

阅卷环节采用智能体阅卷，并完善了功能。所有作文均由人工手动复制到对话框，确保判卷公平。腾讯元宝以ICU监护仪数字变化为线索，串联抢救、康复、告别三个场景，体现数字作为生命体征的意义，采用”危机—转机—释然”的叙事弧线，以49分问鼎。其他模型的表现及智能体点评如下：

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

FINAL 总分环节

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场

正当元宝因高分沾沾自喜时，总分环节揭开了戏剧性一幕。由于作文环节分数胶着，第一轮检索失误对整体影响更大。元宝因幻觉问题被扣分，从作文第一跌至垫底。百度文心一言、ChatGPT、豆包则”坐享其成”，并列第一。DeepSeek因第一轮零分被反超至第六名。这场比拼揭示：开放性任务中，缺乏事实校验的幻觉问题是大模型最大短板。高分作文背后的幻觉警示我们，AI能力令人赞叹，但幻觉才是需要警惕的”黑天鹅”。

大模型高考作文赛：百度与腾讯竟是一家？幻觉测试引爆全场