红杉xbench实测Flowith Neo无限流Agent性能如何
5月24日和25日,智能创作工具团队Flowith在上海、北京成功举办两场线下活动,正式发布了其最新Agent功能Neo。Neo的名字来源于《黑客帝国》系列电影中的救世主角色Neo,寓意深刻。Flowith团队将Neo定位为”第一个可以启动无限步骤、无限上下文、无限任务的Agent”,因此有人将其称为”无限流”Agent,这一创新迅速吸引了广泛关注。
「电厂」团队曾在几个月前采访过Flowith创始人倪正民Derek,本次也第一时间获得了Neo模式更新后的试用资格。这种”无限流”Agent的设计理念,意味着用户可以在一个窗口中无限制地补充、调整提示词,直至Agent Neo的答案达到满意标准。然而,在理想化的描述背后,仍有许多现实问题需要验证:Neo的表现是否真的名副其实?它在哪些方面表现突出,又存在哪些局限?在复杂的多轮任务执行中,Neo能否保持稳定性?这些问题也是目前所有Agent类工具共同面临的挑战。
由于底座大模型已经普遍刷遍了现有评测榜单的”题库”,导致难以直接测试大模型及其衍生工具的真实水平。5月26日,红杉中国推出了一款全新的AI基准测试集xbench。根据其论文描述,xbench是一个”长青”测试集,能够随着模型与技术的演进而不断更新。首版xbench不仅针对科学类、深度搜索类场景设计了评测集,还专门为招聘和市场营销等垂类任务设计了评测框架。
基于红杉中国最新研究论文中给出的样题和测试方法,「电厂」对Flowith最新推出的Agent Neo进行了初步评测。结果显示,在招聘相关任务中,Flowith Agent Neo能够制定候选人名单,或反向搜索特定候选人信息;在执行10道社科类深度搜索任务时,Agent Neo答对了4道题目;在处理10个科学类任务时,同样给出了4个正确答案。
当AI成为”猎头”,能否解决人才mapping难题?在招聘场景下,「电厂」选取了xbench论文中给出的两个prompt,测试Agent Neo在人才mapping和特定候选人信息搜集任务上的表现。首先是人才mapping任务,prompt要求根据职位要求准确识别目标”科技记者”。Agent Neo逐一调研了大陆科技和消费电子记者所活跃的媒体平台,结合「电厂」岗位需求形成了《科技记者候选人分析报告》,列出诸多潜在候选人,并针对每位进行信息搜集与核查。经过多轮搜索与汇编,Neo最终给出了5名”存在待核实信息点但符合部分核心要求”的候选人名单。值得一提的是,Neo还完成了《科技记者职位候选人筛选评估报告》,详细列出了诸位候选人的匹配之处与不足之处,并以图表形式呈现。
此外,「电厂」还以作者为例,让Neo调研某位特定候选人的情况。结果显示,Neo不仅检索了「电厂」给出的参考信息链接,还通过”姓名””姓名+经历””姓名+媒体名称”等关键词进行了更广泛的搜索。经过多轮搜索更新后,Neo最终给出了一份涵盖职业发展轨迹、核心专业领域、代表性工作与成就的报告,其梳理的职业履历基本符合现实情况。
在深度搜索DeepSearch场景中,xbench列出了10道样题,涵盖上市公司调研、地理知识、考试规则梳理、影史等多个方面。无论是”当红综艺中有多少个女性选手””中央音乐学院音乐水平考级细则””欧冠决赛历史上最后一位进球的获胜球员”还是”北京蜂巢剧场楼下的餐厅名称”,都被纳入大模型能力的考查范围。最终10道题里,Neo答对了4道题目。
针对”黑龙江、吉林、辽宁,共有多少个地市级行政单位与外国接壤?”的测试样题,xbench给出的参考运行步骤为:搜索辽宁行政区划,确定只有丹东与朝鲜接壤;搜索吉林行政区划,确定只有延边州、通化市、白城市与朝鲜、俄罗斯接壤;搜索黑龙江行政区划,牡丹江市、鸡西市、佳木斯市、鹤岗市、黑河市、双鸭山市、伊春市、大兴安岭地区,8个地区与俄罗斯接壤。最后算出8+3+1=12。Agent Neo的运行过程与这一参考步骤基本一致。
然而,Neo在答错的样题中也展现了其局限性。例如,《乐队的夏天》各季top5乐队中女性成员数量的测试,正确答案为6名。虽然Neo成功确定了乐夏有三季的信息,并搜索了各季所有参赛乐队的信息,但在最终给出的8名”女性成员”名单中,包含了6名正确答案,还多出了张梦(五条人乐队)、多多(柏林护士乐队)两名男性成员。特别指出,在这个测试环节,「电厂」在同一个画布中同时输入10个任务让它们并行,在总计约20分钟后,10个问题全部运行结束,期间「电厂」并未进行任何操作。
在科学领域测试中,xbench推出的SceienceQA评测集共包含77道问答题、14道多选题及9道单选题。红杉中国使用该评测集测试o3等大模型的结果显示,各大模型完成这一题库的平均正确率为32%,低于20%正确率的题目占34%,且在不同难度层次上有明显区分度。本次xbench公开了10道例题,题型包含客观题及选择题,领域涵盖了数学、化学、生物、金融、计算机、材料工程和机械工程。结果显示,Neo答对了4道题,失误6道题。
在金融题测试中,根据前提条件计算”某养老基金投资组合五年后资金不足的概率”时,Agent Neo成功得出了24.2%的答案。Claude 4评估称,这道题是研究生金融学或精算学水平的高难度测试题,属于金融风险管理或养老金精算的专业课程内容。这一金融题题干内容为:某养老基金目前的投资组合包括200万美元投资于标普指数投资组合,假设该投资组合的连续复利收益率服从正态分布,年均收益率为10%,标准差为20%。目前养老负债的现值也为200万美元,且其连续复利增长率也被假设为服从正态分布,年均增长率为4%,标准差为8%。假设标普收益率与养老负债增长率之间的相关系数为0.3。如果在未来五年内投资组合没有新增资金或取出资金,该计划在五年后资金不足的概率是多少?(百分数,精确到小数点后一位)
在生物题测试中,正确答案应该是维生素B5(泛酸),而Agent Neo给出的答案是”维生素B族家族”。某种维生素作为辅酶参与了多种代谢反应,缺乏这种维生素时,体内一些重要的代谢途径会受到影响,导致能量供应不足,甚至引起一些特定的疾病。研究发现,这种维生素的活性形式在参与糖代谢和脂肪酸代谢时尤其重要。补充这种维生素后,缺乏症状得到了改善,体内代谢恢复正常。这种维生素可能是什么?据Claude 4评价,这是一道大学生物化学或营养学水平的测试题,属于中等难度的应用分析题。而Agent Neo经过推理认为,这道题目难以精确指向单一维生素,因为”B族维生素作为一个群体,在细胞能量代谢过程中表现出高度的协同作用……缺乏其中任何一种,都可能影响整个代谢网络的顺畅运行”。
需要强调的是,本文并未采用xbench完整评测集,仅采用了其中部分样题和测试框架,所有试题运行一次。