Meta首席科学家杨立昆炮轰生成式AI:AI需理解物理世界才能达人类智慧

近日,Meta首席AI科学家杨立昆在法国巴黎的2025年人工智能行动峰会上再次对生成式AI表达了强烈质疑。他认为,若要实现AI的真正突破,仅靠文本训练是远远不够的,必须深入探索LLM(大语言模型)之外的路径。杨立昆指出,尽管现有大模型运行高效,但其推理过程存在明显缺陷——发散性推理可能导致生成的token偏离合理答案范围,这也是部分大模型产生”幻觉”的原因。他强调,虽然生成式AI已能在律师资格考试、数学问题等领域取得进展,但在家务等人类无需思考的简单任务上却表现拙劣,这恰恰说明AI与人类智慧存在本质差距。

杨立昆特别强调,生成式模型完全不适合视频制作。当前所谓能生成视频的AI,实则只是通过算法组合出看似连贯的图像,对物理世界的理解几乎为零。他提出的联合嵌入预测架构(JEPA)才是真正能理解物理世界的解决方案,这种架构能通过预测视频内容的变化来模拟真实世界的运行逻辑。在他看来,只有当AI能真正理解物理规律时,才有可能达到与人类相媲美的智慧水平。

Meta首席科学家杨立昆炮轰生成式AI:AI需理解物理世界才能达人类智慧

在峰会上,杨立昆还着重阐述了开源AI平台的重要性。他认为,未来的通用虚拟助手必须能够跨越语言、文化和价值观的障碍,这样的AI系统不可能由硅谷或中国的少数公司独立完成,而需要全球科研机构以有效方式协作。他尖锐地指出,某些国家政府将开源模型发布定为非法的行为,实则是自断后路——秘密研究只会导致落后,而全球协作才是AI发展的正确方向。事实上,开源模型正以不可阻挡之势超越闭源模型,这一趋势已在全球范围内显现。

精彩观点总结如下:
1. 人类需要达到智慧水平的AI,因为无处不在的AI助手将成为人类与数字世界的桥梁
2. 仅靠文本训练无法实现AI的智慧突破,这是科学事实
3. Meta将这类高级机器智能称为”AMI”(类似法语”朋友”),而非”AGI”
4. 生成式模型在视频制作上存在根本缺陷,无法真正理解物理世界
5. 学术界应放弃LLM研究,转向更具探索价值的领域
6. 开源AI平台是构建通用虚拟助手的必要条件
7. 开源模型正在超越闭源模型,地缘政治竞争只会加速这一进程

Meta首席科学家杨立昆炮轰生成式AI:AI需理解物理世界才能达人类智慧

为什么我们需要人类智慧水平的AI
众所周知,人类对智慧型AI的需求不仅源于科学探索,更有着迫切的产品需求。未来,智能眼镜等可穿戴设备将成为我们随时访问AI助手的入口,人类与AI的互动将无处不在。我们需要智慧型AI,因为我们习惯与人交流,期待出现能理解人类智慧的AI系统。这些无处不在的AI助手将成为人类与数字世界的桥梁,帮助我们更顺畅地与虚拟世界互动。

然而,与人类和动物相比,当前机器学习仍存在巨大差距。我们尚未创造出具备人类学习能力、常识推理和物理世界理解能力的机器。动物和人类都能基于常识进行行动判断,这些行为本质上是由目标驱动的。但几乎所有当前AI系统都采用递归式token生成方式——将信息输入,然后让系统重现输入内容。这种因果结构虽然高效,但推理过程存在严重缺陷:每次生成token时,系统都可能偏离正确答案,甚至越走越远。这就是为什么部分大模型会产生”幻觉”的原因。

Meta首席科学家杨立昆炮轰生成式AI:AI需理解物理世界才能达人类智慧

目前AI在律师资格考试、数学证明等领域表现优异,但在家务等人类无需思考的简单任务上却困难重重。一个10岁儿童无需学习就能完成收碗筷等动作,而AI机器人却难以实现。我们认为是人类独有的语言理解、下棋、诗歌创作等能力,AI反而能轻松完成。这表明,仅靠文本训练无法实现AI的智慧突破,这是科学事实。

不是”AGI”而是”AMI”
在Meta,我们将这类能达到人类智慧水平的AI称为”高级机器智能”(AMI),而非”通用人工智能”(AGI)。这个法语词”AMI”发音类似”朋友”,更符合我们对AI的期待。我们需要能通过感官采集信息并学习的模型,这种模型能在头脑中模拟世界运行逻辑,从视频中学习二维物理规律。具体而言,这类模型应具备持久记忆、分层规划行动和推理能力,并通过设计而非微调实现可控性和安全性。

Meta首席科学家杨立昆炮轰生成式AI:AI需理解物理世界才能达人类智慧

当前LLM的推理方式存在明显缺陷:无论问题简单复杂,系统都会花费相同计算量来回答。这种缺陷导致人们不得不通过”作弊”方式——增加token数量来提高算力消耗,从而让系统”认真思考”。而真正的推理过程应基于能量函数,通过测量观察值与输出值之间的兼容性来优化结果。当结果不符合要求时,系统会自动调整参数进行推理,问题越复杂,思考时间越长。

能量模型通过函数捕捉变量之间的依赖关系:当观测值X与输出值Y兼容时,能量函数取低值;不兼容时取高值。我们只需给定X,找到能量值最低的Y即可。世界模型则是这种架构的核心,它概括当前世界状态,并预测采取行动后的状态变化。想象一下,当你脑海中旋转一个立方体时,你能轻松想象其旋转后的样子。这就是世界模型要实现的功能——预测一系列行动的结果。

Meta首席科学家杨立昆炮轰生成式AI:AI需理解物理世界才能达人类智慧

如何让AI理解世界
早在ChatGPT爆火之前,我就撰写了关于自主机器智能的论文,阐述AI研究应关注的领域。这些观点至今未变。要让系统理解世界运行规律,最有效的方法是像训练自然语言系统那样训练视频系统——通过预测视频内容来理解世界底层结构。虽然文本预测相对简单,但视频预测面临巨大挑战:我们无法准确预测图像帧的分布,每次尝试都会遇到数学难题。

解决这一问题的方法是开发全新架构——联合嵌入预测架构(JEPA)。这种架构同时处理观察值和输出值,从而不再局限于预测像素,而是预测视频中实际发生的事情。与生成架构相比,JEPA能消除所有无法预测的细节,大大简化问题。在动作条件方面,JEPA能根据当前状态预测采取行动后的状态,实现真正的规划功能。

Meta首席科学家杨立昆炮轰生成式AI:AI需理解物理世界才能达人类智慧

近期我们对Video JEPA进行了深入研究。该模型通过提取连续视频帧,对部分帧进行屏蔽破坏,然后训练预测模块重构完整视频表征。实验证明,这种自监督学习方法能学习到可直接迁移至下游任务的深层特征。有趣的是,当视频中发生异常情况时,系统的预测误差会显著上升,这表明它已具备一定程度的常识判断能力。

我们最新的工作DINO-WM则提供了一种无需重建视觉世界即可建立视觉动态模型的新方法。通过将世界图片输入DINO编码器,再结合动作预测,就能生成视频下一帧。这种架构能实现分层规划:观察初始状态,运行世界模型,设定目标图像,然后寻找运行成本最小的动作序列。这种简单概念却效果显著,为AI理解物理世界提供了新思路。

放弃研究生成式模型
最后,我想分享几点建议:首先,放弃生成式模型研究。虽然这是目前最流行的方法,但效率低下且存在根本缺陷。其次,不要研究LLM。在学术界,与其与拥有数万个GPU的团队竞争,不如探索更具价值的领域。第三,开源AI平台是构建通用虚拟助手的必要条件。这类系统必须跨越语言、文化和价值观障碍,而任何公司都无法独立完成基础模型训练。第四,地缘政治竞争导致部分国家禁止开源模型发布,实则是自断后路——秘密研究只会导致落后。事实上,全球协作正在推动开源模型超越闭源模型,这一趋势已不可逆转。

文章网址:https://www.wpbull.com/ai/23801.html