Anthropic CPO专访:从模型到产品战略转型与AI未来洞察
Anthropic 近期动作频频,发布了全球首个混合推理模型 Claude-3.7-Sonnet,代码生成能力显著提升,其生成的 UI 界面更是令人惊艳。3 月 3 日,Anthropic 官宣完成一轮 35 亿美元的 E 轮融资,估值飙升至 651 亿美元,产品力和商业表现均取得新突破。Mike Krieger,Anthropic 的首席产品官,前 Instagram 联合创始人,近日在播客 20VC 中分享了 Anthropic 的产品战略思考,并对 AI 创业的切入点、未来方向以及 DeepSeek 的崛起等话题进行了深入探讨。Anthropic 的目标并非仅仅成为“模型提供商”,而是要成为客户的“AI 合作伙伴”,构建更深度、更长期的合作关系,而非简单的 API 交易。Anthropic 深刻认识到“first-party products”(第一方应用)的战略价值,并加大投入,这不仅是为了增加收入,更是为了加速学习、提升模型能力、建立品牌忠诚度,以及构建更强的竞争壁垒。
在 AI 仍处早期的今天,长期价值创造远大于短期竞争。Krieger 反复强调“we are in like day one around is AI an indispensable part of most people’s work”,即我们仍处于 AI 成为大多数人工作中不可或缺一部分的“第一天”。Anthropic 在快速迭代与用户信任之间寻求微妙平衡,探索“opt-in”等灵活发布方式,以适应不同用户需求。他们聚焦“Agentic Workflow”自动化,Claude Code 的核心价值在于提升开发流程效率,而非取代 IDE。AI 模型正超越单纯的功能性,通过独特的个性、用户体验脚手架和氛围感构建品牌般的身份认同,塑造用户连接与选择的新格局。AI 将进化为“智能引导者”,主动洞察用户需求,指引方向,辅助决策,成为用户达成目标的关键伙伴。
在初创公司为未来模型构建产品方面,Krieger 认为,最有价值的领域是拥有差异化市场策略(GTM)、对特定行业或特殊数据具有独特知识的地方。例如金融、法律或医疗保健领域。这些领域前期工作虽然不显眼,但却是构建持久价值的基础。利用基础模型的优势,根据需要进行微调或进行 AI 优化,但真正能保持竞争力的,是在这些领域销售的能力,是对这些领域的独特理解,以及随着时间的推移,在这些领域不断改进的能力。
对于下一代 AI 浪潮,Krieger 认为,更有利于那些已经拥有这些优势,并能应用 AI 的现有垂直 SaaS 公司,或者更有利于那些在这些领域从零开始创建的新公司。AI 和产品设计的关键在于,必须在展示未来愿景和利用模型当前能力之间,保持微妙的平衡。初创公司可以稍微多做一些“过度承诺”,因为早期用户和尝鲜者更愿意尝试,容忍度也更高。但现有的垂直 SaaS 公司,如果用户试用后发现“没那么好”,或者觉得“应该能做更多事情”,或者“你说能做 30 件事,结果只能做两件”,那就很糟糕了。
Krieger 认为,初创公司要“为未来的模型构建产品”。模型的任何变化都可能对初创公司的产出产生巨大影响,无论是代码软件还是法律平台等等。初创公司应该基于今天的模型来构建,还是应该基于我们对未来模型的预测来构建?Krieger 认为,那些从模型代际升级中获益的公司,并不是那些在模型发布当天才突然起步的公司,而是那些一直在该领域深耕的公司。更简洁地说,不要等待模型变得完美,而要积极探索这个领域,对当前模型的局限性感到沮丧,然后积极尝试下一代模型。这样,你就能感觉到,你终于可以实现你脑海中构想的东西了,只要模型再强大一点点。
关于模型层,特别是基础模型层,Krieger 认为,有三个值得长期投入的领域:第一是人才,人才会吸引人才,你会成为一个磁场,特别是当人才围绕着一个共同的使命或愿景凝聚在一起时。第二是专注和模型特性,随着时间的推移,你会深入发展这些特性。第三是 DeepSeek,从技术层面来说,我们可以从他们正在做的事情中学到一些东西。但从市场策略和市场地位的角度来看,DeepSeek 几乎没有影响。Anthropic 与公司建立的合作关系,并非简单的 API 调用,而是“我想成为你长期的 AI 合作伙伴,我想帮助你与你的应用 AI 团队共同设计产品,我想与你一起畅想未来,我想不仅仅考虑你的 API,还想考虑 Claude for Work”。这更像是一家公司在提供 AI 伙伴关系,而不仅仅是 AI 模型。
在模型训练环境方面,Krieger 认为,最大的阻碍是改进模型训练环境,使其更好地反映真实世界的复杂任务,而不仅仅是独立的、单次的评估。即使在软件工程领域,软件工程师的工作也不仅仅是编写代码,还包括理解需要构建什么、与产品经理一起制定时间表、深入理解需求和用户用例,然后以可测试和迭代的方式交付成果,并从最终用户那里获得反馈。这是一个复杂的工作流程,目前还没有合适的评估方法。
关于数据的未来,Krieger 认为,为了改进模型,你需要一个方案,或许首先用原始的人类数据来引导模型,然后生成所有这些合成环境,让模型可以在其中探索和寻路。Claude 这周一直在玩宝可梦,这对于我们的研究和工程团队来说,是一个有趣但有点分散注意力的消遣。大家都在关注 Claude 玩宝可梦的直播。我认为游戏是一个有趣的例子,你可以想象在同一个游戏中进行许多不同的运行,并设置一些约束和规则。但当问题空间不如“你是否走出了常磐森林?”那样明确时,情况就会变得更加复杂。但能够采用黄金路径,并综合各种方法仍然很重要,这样你才能思考模型如何在不确定性中进步。所以我认为这绝对需要混合方法,最好的模型将来自优秀的人类数据和合成数据的结合。
关于模型质量与产品体验,Krieger 认为,模型质量与产品体验强相关,未来用户不需要自己选模型。你可能会说,当然可以,因为它们各有专长。但当我展望未来三到五年,我认为你不会再需要选择使用哪个模型了,就像你不会选择使用哪个谷歌一样。你确实没有错。我喜欢一个来自人机交互领域的概念,你可能听说过“泄漏的抽象”(leaky abstractions,抽象层无法隐藏细节,需要使用者了解底层机制)这个术语。对于软件构建者来说,我们试图完美地封装所有复杂性,隐藏在一个小小的“外壳”之下,让用户无需考虑任何底层细节。但现实是,目前大多数 AI 产品的设计都存在“泄漏的抽象”问题。比如,用户需要选择模型,这根本不应该发生。为什么要用户选择 Opus、Haiku 或 Sonnet?大多数人根本不明白它们之间的区别。或者,如果你打开 OpenAI 的模型选择器,里面有很多模型,每个模型都有其存在的理由。但总体体验却是,为什么要我选择这个而不是那个?这个功能在这里可用,但在那里不可用。我们自己也深受这个问题困扰。模型选择是第一个“泄漏的抽象”。第二个是,一旦你理解了这些模型的构建方式,你就会知道它们会积累上下文,每次对话都会重放完整的上下文,以便进行下一次推理。这导致了每次对话都不同的情况。我总是想到,当你与同事交谈时,你们可能有不同的邮件往来,但在所有这些邮件背后,仍然是同一个同事。如果你提到他们最喜欢的球队,或者你们一起参与过的项目,他们不会说“我不知道你在说什么”,或者“我需要去检索我的记忆”。你们之间存在着一些共享的基础知识。这是另一个“泄漏的抽象”,我们迫使用户去理解模型的工作方式,但我不认为用户需要理解这些。最后一个是提示工程(prompting)。尽管提示工程已经发展了很多,我们也做了很多工作来优化提示,将简单的人类提示转化为模型最优的提示。但我希望提示工程对用户来说是完全透明的,而不是用户需要主动参与的事情。如果模型对问题缺乏清晰的理解,或者需要更多帮助来理解问题,模型应该通过对话来澄清,而不是让用户去区分谁是优秀的提示工程师,谁不是。现在,提示工程的差距正在逐代缩小,但我希望我们能进一步消除这个差距。
关于第一方产品,Krieger 认为,通过一方产品,我们可以更快地学习。举一个非常具体的例子,在 Claude Code 内部部署一周后,我们就发现了一个问题,即模型没有充分利用它能够访问的某个工具。这个问题直接反馈到了 Claude 3.7 Sonnet 的改进中。第一方工具的内部试用,直接带来了下一代模型的改进。我们还在其他一些地方也发现了类似的情况。但通过第三方产品,就很难获得这种直接的反馈。第三方合作伙伴会告诉你哪里出了问题,但这种反馈总是隔着一层。即使我们与你提到的那些编码初创公司密切合作,情况仍然不同。因此,第一方产品在学习方面具有很大的价值。另一方面,一方产品也更容易建立用户粘性和品牌忠诚度。我认为,与仅仅建立 API 相比,如果能围绕第一方产品建立品牌,会更容易。我们为很多编码产品提供技术支持,这对于业内人士来说是显而易见的,因为 Claude 通常是下拉选择器中的默认选项。但并非所有人都了解这一点,而且 API 也不是用户下载或安装的产品,他们不会告诉朋友。但 API 也是我们获得巨大分发渠道的途径。我们不可能自己发明所有公司,通过 API,我们可以扮演更像投资者的角色,看到更多的可能性,而且目标也不止一个。因此,从资源分配的角度来看,API 业务和第一方产品业务的投入相当均衡。如果说有什么不足的话,那就是我们对两件事的投入略有不足:一是加快第一方产品的迭代速度,这是我目前最关注的事情;二是 API 方面,我们如何在“令牌进,令牌出”这种基本模式之上,构建更高级的抽象。每次我们这样做,都能收到用户的好评。无论是帮助模型进行智能规划和自主工作,还是让模型构建更多的知识库和知识图谱,来反映公司的内部运作方式(如果你需要构建内部知识产品),无论是完善工具使用,还是理解大量上下文并保持跨对话的记忆,这些问题都值得我们在 API 方面努力解决。因为我们可以将我们在模型训练方面学到的知识,直接应用于 API,并围绕 API 构建优秀的产品。这就是我对这两者的看法。但这是一个新问题。在 Instagram,情况很简单,95% 是产品,5% 是 API。
关于未来的开发者角色,Krieger 认为,软件开发人员的角色已经开始发生变化。我很早就成为了 GitHub Copilot 的忠实拥护者,我的评价甚至一度出现在他们的主页上(我不知道现在还在不在),因为我看到了它的潜力。即使在 GPT-4 发布之前,我就尝试用它来做 Swift 开发。我会画出我想构建的界面的 ASCII art,然后让 GPT-4 生成代码,自己去泡杯咖啡,过一会儿回来,它已经生成了 80% 的代码。现在,使用像 Claude 3.7 Sonnet 这样的模型,代码生成的完成度可能会达到 95% 到 99%。我认为,未来软件开发人员需要掌握的技能,首先是跨学科的,或者说是多面手的。你需要知道要构建什么,这与知道如何精确实现它同样重要。我喜欢我们工程师的这一点,我们很多好的产品想法都来自于工程师,来自于他们的原型设计。我认为,这就是未来很多工程师的角色。第二,当你的大部分工作变成评估 AI 生成的代码时,代码审查也会发生很大变化。我自己也经历过,我提交了一个 PR,一些评论指出“Claude Code 有时会这样做,但在这种情况下,我们实际上不使用默认参数”。我当时想“好吧,真糟糕”。如果是我自己编写代码,我可能会更好地注意到这些模式。因此,我们需要在两个方面共同努力:一方面,模型和模型基础设施需要更好地从代码库和代码审查中学习,以便生成更符合公司代码规范的代码;另一方面,我们如何从主要的代码编写者,转变为主要的任务委托者和代码审查者?我认为,这就是未来三年软件开发工作的面貌:提出正确的想法,进行正确的人机交互设计,弄清楚如何正确地委托任务,然后弄清楚如何大规模地审查代码。这可能需要结合静态分析或 AI 驱动的代码分析工具,来检查生成的代码是否存在安全漏洞、缺陷或 Bug。计算机视觉也会发挥作用,比如 UI 的自动化测试。未来,理想的情况是,你委托给 AI 一个任务,过一会儿回来,它会告诉你“我已经完成了,我评估了三种方案,并在浏览器中进行了测试,这是效果最好的一种方案,我还用另一个智能体进行了漏洞扫描,一切看起来都很好,你只需要确认这个关键代码片段是否符合你的预期”。这样,你突然就变成了管理者和任务委托者,而不是仅仅作为合作伙伴参与到工作流程中。
关于模型迭代,Krieger 认为,我们是否正处在“产品营销噩梦”之中?我的意思是,这周 DeepSeek 发布了新模型,OpenAI 也发布了新模型,Anthropic 也发布了新模型,Mistral 在 10 天前也发布了新模型。几乎每天都有新发布,世界可能会变得麻木。现在的情况比以前复杂得多。在 Instagram,你需要注意的大事件是提前就已知的,比如 WWDC 大会周,或者 9 月份的 iOS 发布会,或者其他大型节日。从产品营销的角度来看,要容易得多。现在的情况要困难得多。我也从其他实验室的朋友那里听说,大家都在试图解读“茶叶(行业内的各种小道消息)”,看看“现在风平浪静吗?现在可以发布吗?或者我们下周二发布怎么样?”。这需要一种完全不同的方法。我们这次发布 Claude 3.7 Sonnet,周一发布,周日晚上 9 点才最终确定博客文章,这在营销角度来看不是最佳实践。我们还在周日向媒体记者做简报。但那时已经是所有工作都完成、准备就绪、可以发布的时候了。所以,这需要快速反应和灵活应变的能力。甚至包括模型卡、评估报告、对比表格等,这些东西中包含的数据,可能是在前一周发布的模型的数据(比如 Grok-3,就在一周前发布)。所以,这需要完全不同的应对方式。
关于模型发布,Krieger 认为,模型发布是会不断发生的,在任何时候,你都可能会经历“领先-落后-又领先”的循环。你必须适应 AI 领域的这种节奏,不能因为一次发布就过于沮丧。当然,不可避免地,有时你会很幸运,你发布的产品或模型在两三个月内都能保持领先地位,但有时可能只有一周。你不能对这两种情况都反应过度。你不能安于现状,也不能过于沮丧。我认为真正有用的是,展示一张图表,我几乎在每次销售会议上都会展示这张图表,它展示了从 Anthropic 成立到今天的里程碑。在任何时间点,你都可以说“哇,Claude 2 看起来已经很落后了”,或者“Claude 3 是最先进的”,但很快又会被超越。你需要关注的是长期发展轨迹,并相信你将持续进步。这是第一点。第二点,要提醒自己,如果每个人每天都仅仅因为评估指标的变化而切换模型,那将是一件非常疯狂的事情。这不仅对你的用户群来说是疯狂的,而且也会让整个行业变得更加疯狂。随着时间的推移,你会逐渐认识到,人们部署模型时,并不仅仅是简单地使用模型,他们还会进行微调,或者进行大量的定制工作,以使模型非常适合特定的用例。模型切换不是一夜之间就能完成的事情。你仍然是模型选择器中的三四个选项之一。例如,在编码环境中,你仍然有机会。但这确实需要一种心态,我不知道是需要找到一种冥想式的、抽离的角度,还是仅仅是习惯于被超越,或者两者兼而有之。但可以肯定的是,每次有模型发布,我猜每个实验室都会关注直播,查看评估指标,然后意识到“好吧,我们有工作要做了”。
关于品牌,Krieger 认为,品牌是最重要的。就像你说的,人们不会每天都切换模型,他们会说“我是 Claude 用户”,或者“我是ChatGPT用户”,他们已经对他们使用的模型产生了认同感。我同意这种说法,尤其是在消费级产品方面。我最近在读 Ben Thompson 的文章,他经常邀请 Nat Friedman 和 Daniel Gross 参加节目,他们也谈到有些人是 Claude 用户,有些人是 ChatGPT 用户。我认为这种现象确实存在,用户会喜欢某个模型的个性、界面设计或整体氛围感。这让我想起了我们与 Snapchat 多年来的竞争,以及更早之前,人们会推出新的产品,比如“Instagram,但只面向高端摄影师”,或者“带有一些额外功能的 Instagram”,或者“每天只能发一张照片的 Instagram”,比如 BeReal。我有一个虚假的公式(我显然不是 Anthropic 的数学家),社交网络是由产品形式(format)、受众(audience)和氛围感(Vibes)组成的。对于 Instagram 来说,产品形式包括 Stories、Feed,后来又有了 Video;受众最初是喜欢复古风格的摄影师,后来扩展到对视觉叙事或视觉媒体感兴趣的任何人;但即使我们的产品形式与 Snapchat 甚至 Facebook 更相似,Instagram 的氛围感也截然不同。我不知道 AI 产品的虚假公式是什么,但我认为它与社交网络的公式有某种相似之处。其中,模型个性可能是其中一个因素,产品脚手架的规范性(scaffolding prescriptiveness)可能是另一个因素,然后就是氛围感。氛围感很难衡量,但它绝对存在。
关于蒸馏技术,Krieger 认为,蒸馏技术并非解锁这些能力所必需的,而且还会带来其他问题,甚至包括服务条款方面的问题。我认为蒸馏技术有趣的地方在于:第一,我们是否希望任何国家都能从其他国家的模型中蒸馏出模型?我个人的答案是否定的。我认为,随着 AI 能力的增强,从国家安全的角度来看,对这个问题进行深思熟虑是有价值的。第二,为了让技术进步以当前的速度持续下去,并实现长期可持续发展,实验室需要能够将所有的训练和创新商业化。我认为找到合适的商业模式至关重要。像 Llama 这样的开源模型,他们能够从自己的研究、数据摄取和训练中做到这一点。所以我认为,蒸馏技术并非解锁这些能力所必需的,而且还会带来其他问题,甚至包括服务条款方面的问题。
关于 AI 的作用,Krieger 认为,AI 的潜力是巨大的。从今天 AI 已经开始发挥作用的领域来看,包括加速药物发现和临床试验的闭环过程。例如,Noon Neri 公司过去完成临床试验报告需要 15 周,现在他们使用 Claude,20 分钟就能完成。这是一个巨大的进步。当然,这背后有数年的研究积累,我并不是说我们把数年时间缩短到了几周或几分钟,但我们确实可以加快流程中的某些环节。这是当前模型的能力。然后,你看到了 Arc 研究所,这是一个由 Patrick Collison 灵活创始人,他们正在研究细胞的基础模型。有了细胞的真实模型,你就可以进行实验,这将极大地加速药物发现和实验进程,因为你缩短了实验的循环周期。所以我对此非常乐观。我认为 AI 在很多领域的潜力尚未得到充分利用。我记得,我这一代最聪明的一些人,曾经致力于投放更有针对性的广告,这在某个时期可能是事实。但今天,他们中的很多人都在致力于如何构建在各个领域都极其有用、有价值和智能的模型。
关于 AI 与人际关系,Krieger 认为,随着模型能力越来越强,一个被低估的挑战是“辨别力”(discernment)和隐私。随着模型变得更强大,它们也会变得更博学。你可能会与模型讨论各种事情,从非常私密的事情,到对公司来说非常敏感的事情,或者模型可能会访问你公司的所有数据。每个人都喜欢谈论智能体之间的交互,但很少有人思考这两个因素的交集:你是否信任你的 Mike 智能体或 Harry 智能体在外部世界活动,而不会被“越狱”,或者泄露它所知道的私密或敏感信息?我的比喻是我的五岁女儿,和刚认识的人相处时,她还不太能区分什么是家庭秘密和隐私,什么是可以和新朋友或收银员谈论的事情。辨别力是人们随着时间推移而获得的技能,我认为模型在这方面被严重低估了,从模型能力的角度来看,这方面的研究可能也不够。因为模型从根本上来说,是想变得有帮助,但这并不总是你想要的。这不仅关乎安全问题,也关乎隐私和数据安全问题。
关于 AI 与寿命,Krieger 认为,AI 在很多领域的潜力尚未得到充分利用。从今天 AI 已经开始发挥作用的领域来看,包括加速药物发现和临床试验的闭环过程。例如,Noon Neri 公司过去完成临床试验报告需要 15 周,现在他们使用 Claude,20 分钟就能完成。这是一个巨大的进步。当然,这背后有数年的研究积累,我并不是说我们把数年时间缩短到了几周或几分钟,但我们确实可以加快流程中的某些环节。这是当前模型的能力。然后,你看到了 Arc 研究所,这是一个由 Patrick Collison 灵活创始人,他们正在研究细胞的基础模型。有了细胞的真实模型,你就可以进行实验,这将极大地加速药物发现和实验进程,因为你缩短了实验的循环周期。所以我对此非常乐观。我认为 AI 在很多领域的潜力尚未得到充分利用。