OpenAI前员工David Luan深度解析DeepSeek对AI发展的影响
在红点创投(Redpoint Venture)的播客“Unsupervised Learning”中,红点创投合伙人Jacob Effron与David Luan进行了一次深度访谈,探讨了DeepSeek对大模型领域的影响,以及AI模型当前面临的挑战和未来突破的方向。David Luan曾是OpenAI的早期员工,从2009年耶鲁大学毕业至今,他曾在iRobot、微软等多家公司任职,并于2017年加入OpenAI。2020年,他离开OpenAI加入谷歌,后创立了Adept公司并担任CEO,去年8月加入亚马逊担任AGI旧金山实验室的负责人。以下为访谈正文(略有删节):
### 大模型的局限性与强化学习的价值
Jacob Effron:David Luan是亚马逊AGI实验室的负责人,也是Adept公司的联合创始人兼CEO。他曾参与OpenAI的许多关键突破,并担任工程副总裁。今天,我和David探讨了许多有趣的话题,包括他对DeepSeek的看法、对未来模型进展的预测,以及Agent的现状和如何使其变得可靠。他还分享了一些关于OpenAI早期的故事和独特的文化。这是一次非常有趣的对话,因为David和我已经认识超过十年了。
David Luan:感谢邀请我。这将非常有趣,因为我们已经认识超过十年了。
Jacob:我记得你最初加入OpenAI的时候,我觉得这似乎很有趣,但我不确定这是否是一个明智的职业选择。然后很明显,你总是比别人更早地看到机会。
David:我真的很幸运,因为我一直对机器人感兴趣,而当时机器人最大的限制在于底层算法的智能程度。所以我开始从事人工智能的工作,看到这些技术在我们有生之年取得进展,这真的很酷。
Jacob:今天我想和你探讨很多话题。我想先从最近的热门话题开始。显然,过去几周对DeepSeek的反应很大。人们对此议论纷纷,股票暴跌。有人说这对OpenAI和Anthropic不利。我觉得现在人们的情绪已经从最初的惊慌失措中缓和下来了。但我很好奇,人们在更广泛的讨论中,对这一事件的影响有什么看法是对的,又有什么是错的?
David:我还记得那天早上,大家都在关注DeepSeek的消息。我醒之后一看手机,有五个未接电话。我心想,到底发生了什么?上次发生这种情况是在SVB(硅谷银行)倒闭的时候,因为所有投资人都在打电话让我把资金从SVB和第一共和银行撤出来。所以我想,肯定发生了什么糟糕的事情。我查看了新闻,发现股票暴跌是因为DeepSeek R1的发布。我立刻意识到,人们对这件事的理解完全错了。DeepSeek做的非常出色,但它是这个更广泛叙事的一部分——即我们首先学会如何让新的大模型变得更智能,然后我们再学会如何让它们变得更高效。
所以这其实是一个转折点。而大家误解的地方在于,仅仅因为你可以在更低的成本下实现更多的智能,并不意味着你会停止对智能的追求。恰恰相反,你会使用更多的智能。所以当市场意识到这一点后,现在我们又恢复了理性。
Jacob:鉴于至少基础模型似乎已经在OpenAI的基础上进行了训练,你可以通过各种方式让基础的DeepSeek模型表现得像ChatGPT。那么,展望未来,鉴于知识蒸馏的原因,OpenAI和Anthropic是否会停止更公开地发布这些模型?
David:我认为会发生的情况是,人们总是想要构建最智能的模型,但有时候这些模型并不总是推理高效的。所以我认为我们会越来越多地看到,尽管人们可能不会明确讨论这一点,但人们会在内部实验室中训练这些巨大的“教师模型”(teacher models),利用他们能拿到的所有计算资源。然后他们会尝试将其压缩成适合客户使用的高效模型。
目前我看到的最大问题是,我将人工智能的用例想象成复杂性的同心圆。最内层的复杂性可能是像与基础语言模型进行简单的聊天对话,我们在GPT-2就已经能够很好地做到这一点。而每一个增加的智能层级,比如能够进行心算、编程,或者后来的Agent,甚至是药物发现等,都需要更智能的模型。但每一个之前的智能层级几乎变得如此廉价,以至于可以被量化(quantize,指降低模型数值精度来降低资源消耗)。
### 测试时计算的趋势
Jacob:这让我想到测试时计算(test-time compute)的趋势。这似乎是一条非常令人兴奋的前进道路,尤其是在编程、数学等容易验证的领域。这种范式能带我们走多远?
David:有一系列论文和播客记录了我多年来关于如何构建AGI(通用人工智能)的讨论。
Jacob:让我们来给这些讨论加点新的东西。
David:所以现在我们可以证明,我们在这一刻进行了这次对话。但早在2020年,当时我们开始看到GPT-2的出现,GPT-3可能已经在开发中或已经完成。我们开始思考GPT-4,我们生活在一个人们不确定是否只需要预测下一个token(next token prediction)就能解决所有AGI问题的世界里。我的观点,以及我周围一些人的观点实际上是“不”。原因在于,如果一个模型被训练成下一个token预测,那么它本质上会因为发现新知识而受到惩罚,因为新知识并不在训练集中。因此,我们需要做的是,我们需要看看其他已知的机器学习范式,这些范式可以真正发现新知识。我们知道强化学习(RL)可以做到这一点,RL在搜索中可以做到这一点,对吧?是的,或者像 AlphaGo,这可能是第一次让公众意识到我们可以使用RL发现新知识。问题一直是,我们什么时候会将大型语言模型(LLMs)与RL结合起来,以构建出既有全人类知识,又能在此基础上进行构建的系统。
Jacob:那么,对于那些不容易验证的领域,比如医疗保健或法律,这种测试时计算范式能否让我们构建出能够处理这些问题的模型?或者我们会变得非常擅长编程和数学,但仍然无法讲一个笑话?
David:这是一个值得辩论的话题,我有一个非常明确的观点。
Jacob:你的答案是什么?
David:这些模型的泛化能力比你想象的要强。每个人都在说,我用了GPT-1,它在数学方面似乎更好,但等待它思考时,它可能有点不如ChatGPT或其他模型。我认为这些只是通往更强大的小波折。今天,我们已经看到了一些迹象,这些迹象表明,通过明确验证模型是否正确解决了问题(就像我们在DeepSeek中看到的那样),确实会导致在类似领域的一些稍微模糊的问题上的迁移。我认为大家都在努力,我的团队和其他团队都在努力解决这些更复杂任务中的人类偏好问题,以满足这些偏好。
Jacob:是的。而且你总是需要能够构建一个模型来验证,比如“嘿,这个输出是好的法律意见”,或者“这个输出是一个好的医疗诊断”,这显然比验证一个数学证明或代码是否能运行要困难得多。
David:我认为我们正在利用的是这些模型的好坏之间的差距——同一组神经网络权重在判断自己是否完成了一项好工作方面的能力,与生成正确答案的能力相比。我们总是看到这些模型在判断自己“是否很好完成了一项工作方面”比“生成好的答案方面”更强。在某种程度上,我们正在利用这一点,通过一些RL工具(stuff),以让它自己对是否做好了一件事有感觉。
### 建立可靠的Agents
Jacob:为了真正推出像这样的模型,需要解决哪些研究的问题?
David:问题太多了,我想我可能只会列举三个我们需要问题。首先,我认为第一个问题是,你需要真正知道如何构建一个组织和流程,以可靠地做出模型。我一直对我团队和我合作的人说,今天,如果你运营一个现代人工智能实验室,你的工作不是构建模型,而是构建一个能够可靠地做出模型的工厂。当你这样想的时候,这完全改变了你的投资方向。在没有达到可复现之前,我认为在某种程度上,没有太多进步。我们刚刚经历了从炼金术到工业化的过程,这些模型的构建方式发生了变化。没有这个基础,这些模型就无法工作。
我认为下一个部分是,你必须以慢为快。但我认为这是第一个部分。我总是相信,人们总是被算法吸引,因为它们看起来很酷、很性感。但如果我们看看是什么真正推动了这一切,其实是工程问题。例如,你如何进行大规模的集群计算,以确保它们能够可靠地运行足够长的时间?如果一个节点崩溃,你不会浪费太多时间在你的任务上。为了推动规模的前沿,这是一个真正的问题。
现在,整个强化学习(RL)领域,我们将很快进入一个世界,那里会有许多数据中心,每个数据中心都会在基础模型上进行大量的推理,也许还会在客户带来的新环境中进行测试,以学习如何改进模型,并将这些新知识反馈到一个中心位置,让模型学会变得更聪明。
Jacob:有一些像Yann LeCun这样的人对大型语言模型(LLMs)的局限性最近一直在提出批评。我想让你为我们的听众总结一下这种批评,然后谈谈你对那些说这些模型永远无法进行真正的原创性思考的人的看法。
David:我认为我们已经有反例了,AlphaGo是一种原创性思考。如果你回顾早期 OpenAI的工作,我们使用RL来玩Flash游戏,如果你是那个年龄段的人,你可能还记得 MiniClip和类似的东西。这些曾经是中学时代的消遣,但看到它们成为人工智能的基石真的很有趣。我们当时正在研究如何使用我们的算法同时打通这些游戏,你很快就会发现它们学会了如何通过利用漏洞穿过墙壁等方式快速通关,这些是人类从未做过的。
Jacob:在验证方面,它主要是找到巧妙的方法,为这些不同领域找到验证的方法。
David:你就用模型就行了。
### 未来模型的世界
Jacob:我想把话题转向Agents的世界。你如何描述这些模型的现状?
David:我仍然对智能体(Agents)感到无比兴奋。这让我回想起2020、2021年,当第一波真正强大的模型如GPT4问世时。当你试用这些模型时,会感受到巨大的潜力——它能创作出优秀的说唱歌曲,能进行精彩的吐槽,三位数加法也基本过关。但当你让它”帮我订个披萨”时,它却只会模仿达美乐披萨客服的对话模式,根本无法完成实际任务。这显然暴露了这些系统的重大缺陷,对吧?自那时起,我就坚信必须解决Agents的问题。当我在谷歌工作时,我们就开始研究后来被称为”工具使用”的课题——即如何向大型语言模型(LLM)展示操作接口,让它自主决定何时采取行动。虽然学术界一直称之为”智能体”,但当时公众还没有形成统一认知。为此我们尝试创造新术语”大型行动模型”(Large Action Model)来替代”大型语言模型”(Large Language Model),这个概念曾引发过一些讨论。但最终业界还是选择了”智能体”(Agent)这个称谓,如今这个术语已被滥用得失去了本真意义,这令人遗憾,但作为首家现代亚洲公司探索这个领域还是很酷的。当我们创立Adept时,当时最好的开源LLM都表现欠佳。由于当时也不存在多模态LLM(如图像输入的LLM,像后来的GPT-4v),我们不得不从头开始训练自己的模型\我们不得不从头开始做所有事情,这有点像在2000年创办互联网公司却不得不打电话给 TSMC去制造自己的芯片,这简直太疯狂了。所以一路上,我们学到的是,大型语言模型在没有今天的RL技术的情况下,本质上是行为克隆器(behavioral cloners),它们会做它们在训练数据中看到的事情——这意味着,一旦它们进入一个从未见过的情况,它们的泛化能力就会很差,行为变得不可预测。所以Adept一直专注于实用智能(useful intelligence)。那么实用性意味着什么?它不是推出一个在Twitter上引发病毒式传播的酷炫演示。而是将这些技术交到人们手中,让他们不必再做那些大多数知识工作者不得不做的繁琐工作,比如在电脑上拖动文件。所以这些知识工作者关心的是可靠性。所以我们的一个早期用例是:我们能否为人们处理发票?
Jacob:每个人都喜欢处理发票(笑)。对于这些通用模型来说,这似乎是一个自然的开始。
David:这是一个很棒的“Hello World”。所以当时没有人真正做过这些事情,我们选择了一个显而易见的“Hello World”用例。我们做了Excel等其他一些项目。如果这个系统每七次中有一次删除了你QuickBooks的三分之一条目,你就永远不会再次使用它。可靠性仍然是一个问题,即使在今天,像Operator这样的系统非常令人印象深刻,它似乎比其他云计算机Agents更胜一筹。但如果你看看这两个系统,它们都专注于端到端的任务执行,比如你输入“我想让你帮我找55个周末度假的地方”,它会尝试完成这个任务。但端到端的可靠性非常低,需要大量的人工干预。我们仍然没有达到一个点,企业可以真正信任这些系统,做到“一劳永逸”。
Jacob:我们必须解决这个问题。也许可以为我们的听众解释一下,如果你从现有的基础多模态模型开始,要将其转变为一个大型行动模型,背后实际上需要做哪些工作?
David:我可以从更跟高维度讨论这个问题,但基本上有两件事需要做。第一是工程问题,即如何以一种模型可理解的方式展示能做的事情。比如,这里是可以调用的API,这里是你可以调用的UI元素。让我们教它一点关于Expedia.com(注:旅行服务网站)或SAP的工作原理。这是一些研究工程的内容。这是第一步,即赋予它一种对自身能力的认知,以及基本的行动能力。第二部分才是有趣的地方,即如何教它规划、推理、重新规划,并遵循用户指令,甚至能够推断出用户真正想要什么,并为其完成这些任务。这是艰巨的研发难题,它与常规的语言模型工作有很大不同,因为常规的语言模型工作是“让我们生成一段文本”,即使是今天的推理工作,比如数学问题,也有一个最终答案。所以它更像是一个单步骤的过程,即使它涉及多步思考,它也只是为你提供了答案。这是一个完全的多步决策过程,涉及回溯,涉及尝试预测你采取行动的后果,并意识到删除按钮可能是危险的,你必须在基本设置中完成所有这些工作。然后你将其放入沙盒环境中,让它在自己的条件下学习。最好的类比是,应该是 Andrej Karpathy(注:OpenAI创始团队成员,2024年创立AI+教育机构Eureka Labs)说过,现代AI训练有点像教科书的组织方式。首先,你有对某个物理过程的全部解释,然后是一些示例问题。第一部分是预训练,示例问题是监督式微调,而最后一步是开放性问题,也许教科书后面有答案。我们只是在遵循这个过程。
### 机器人何时进入家庭
Jacob:我想你肯定已经对这些智能代理如何真正进入世界进行了很多思考。我想问几个问题。首先,你提到,部分问题是让模型知道自己可以访问什么。那么,随着时间的推移,模型将如何与浏览器和程序交互?这会类似于人类的交互方式吗?还是只是通过代码?还有其他方法吗?
David:如果我要评论这个领域的话,我认为目前最大的问题是,人们在如何与这些越来越智能的大模型和Agent进行交互方面缺乏创造力。你还记得iPhone刚出来时,App Store也出来了,人们开始制作各种应用程序,比如按下按钮发出打嗝声,或者通过倾斜手机将啤酒倒入嘴里的应用。我们的界面如今就像那样,感觉很糟糕,因为聊天是一种超级受限的、低带宽的交互方式,至少在某些方面是这样。比如,我并不想通过七轮对话来决定我披萨的配料。这种缺乏创造力的情况让我感到很沮丧。我认为部分原因是,那些能够帮助我们解决这些问题的优秀产品设计师,目前还没有真正理解这些模型的局限性。这种情况正在迅速改变,但反过来,到目前为止,能够推动技术进步的人总是将其视为“我在这里交付一个黑盒子”,而不是“我在这里交付一种体验”。当这种情况改变时,我期待看到像这样的系统,当你与代理交互时,它实际上会为你合成一个多模态用户界面,以列出它需要从你那里获取的内容,并在人类和AI之间建立共享的上下文(Context),而不是像现在的范式那样,你只是在与它聊天。它更像是你和它一起在电脑上做某件事,看着屏幕,更像是并行而不是垂直。
Jacob:我想你提到过,Operator现在虽然令人印象深刻但有时并不完美。那么,你认为我们何时才能拥有可靠的智能代理?
David:我认为Operator非常了不起,只是目前整个领域还缺少最后一块拼图。
Jacob:我想,考虑到自动驾驶的历史,可能早在1995年,他们就进行了自动驾驶的演示,车辆可以横跨全国,完成99%的旅程。
David:是的。
Jacob:我们是否需要再等30年?
David:我不这么认为,因为我认为我们实际上已经有了合适的工具。
Jacob:你之前提到过,AGI(通用人工智能)其实并不遥远。
David:我正在寻找Agents领域的主要里程碑是,我可以在训练期间给这个代理任何任务,几天后回来,它已经100%完成了。是的,就像人类给我们带来了5%的可靠性提升一样,但这个代理已经学会了如何解决这个问题。
Jacob:正如你之前提到的,你创立Adept时,还没有真正开源的模型,更不用说多模态开源模型了。你认为如果有人今天开始一家像Adept这样的公司,一家创业公司能否在这里取得成功?还是说,最终推动球向前滚动的将是基础模型公司和超大规模云服务提供商?
David:我对这个问题有很大的不确定性。但我的当前观点是,我个人认为AGI其实并不遥远。
Jacob:当你提到 AGI时,你是如何定义它的?
David:一个可以在计算机上完成人类所做的任何有用任务的模型,这是定义的一部分。另一个我喜欢的定义是,它是一个能够像人类一样快速学会做这些事情的模型。我认为这些都不太遥远,但我也不认为它们会迅速扩散到社会中。正如我们所知,根据阿姆达尔定律(Amdahl’s Law),一旦你真正加速了某一件事情,其他事情就会成为瓶颈,你获得的整体加速效果并不如你想象的那么大。所以,我认为会发生的是,我们将拥有这项技术,但人类能够真正高效地使用这些技术的能力将持续相当长的时间。我的许多同事称之为“能力过剩”(Capability overhang),一种巨大的能力过剩。
Jacob:你有没有对一旦我们拥有这些能力,可能的加速因素进行过任何初步思考?
David:我认为这取决于人。这是关于如何共同设计与模型的交互,以及如何使用这些模型。这将是社会接受度的问题。比如,想象你有一个模型明天就出来了,它说:“我发明了一种全新的做事方式,每个人都应该去使用它。”人类需要与它达成和解,并决定这是否真的是一个更好的解决方案,这并不会像我们想象的那么快。
Jacob:正如你所说,即使实验室是第一个开发出这些模型的地方,也可能存在一个机会,让创业公司真正弥合这些模型能力和最终用户实际想要交互之间的差距。
David:我基本确定这就是会发生的事情。因为说到底,我仍然坚信,在一个拥有AGI的世界里,人和人的关系真的很重要。最终,了解和拥有客户,并更贴近他们了解他们的需求,将比仅仅控制这个被许多其他实验室拥有的工具更重要。
Jacob:你认为未来十年人类将如何使用计算机?所有这些模型都达到了你对 AGI 的定义。我是否还会坐在电脑前?你对未来人类与这些技术的互动方式有何愿景?
David:我认为我们将获得新的工具箱,用于与计算机交互。今天,仍然有人使用命令行,对吧?就像人们仍然使用图形用户界面(GUI)一样。在未来,人们仍然会使用语音界面。但我认为人们也会使用更多的环境计算(ambient computing)。而且,我认为我们应该关注的一个指标是,人类在与计算机交互时,每单位能量所获得的杠杆(leverage)。我认为,随着这些系统的发展,这个指标将继续增大。
Jacob:也许可以稍微谈谈这个未来模型的世界,以及我们是否会最终拥有任何特定领域的模型。
David:让我们看看假设的法律专家模型。你可能希望这个假设的法律专家知道一些关于世界的基本事实。