Gemini 2.5弯道超车揭秘:AI强化学习如何引领大模型新突破

Gemini 2.5 Pro的崛起:谷歌大模型的底层逻辑与竞争优势

谷歌最新发布的Gemini 2.5 Pro在各项评测中表现卓越,成为当前大模型领域的佼佼者。硅谷101创始人泓君邀请了Energent.ai联合创始人Kimi Kong和HeyRevia创始人Shaun Wei,与两位前Google技术专家深入探讨Gemini模型登顶背后的底层逻辑。以下是这次对话的精彩内容:

01 Gemini 2.5崛起背后的底层逻辑

泓君:谷歌发布的Gemini 2.5 Pro在各项评测中表现最佳,Kimi你能分析一下它是如何实现这一突破的吗?

Kimi:离开DeepMind已近一年,我虽不清楚同事们的新创新,但大语言模型训练的核心步骤始终不变:预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)对齐。去年NeurIPS大会上,业界普遍认为公开网络数据已基本枯竭,就像化石燃料被耗尽。因此,过去一年更多精力投入对齐阶段,特别是强化学习方向,尤其是在人类反馈和AI反馈上的探索。例如在数学和编程等目标清晰、可验证的任务上。

Google从Gemini 1到2的演进积累了丰富的模型训练经验,更重视强化学习的作用。他们启动了”让AI批判AI”的机制,就像AlphaGo通过第37手超越人类常规理解,实现AI突破人类认知。Gemini 2.5的训练可能引入更多此类强化学习策略,使其在编程、数学等高确定性任务中表现惊艳。

02 大模型训练趋势与代码能力突破

泓君:去年大模型训练明显趋势是预训练加后训练,OpenAI o1系列和DeepSeek R1在推理任务上表现优异。Anthropic的Sonnet 3.5和3.7代码能力质变,带动了Cursor、Windsurf等编程类Agent崛起。Google也强调代码生成质量提升。为何Anthropic代码质量优于其他家?主要靠什么能力?

Gemini 2.5弯道超车揭秘:AI强化学习如何引领大模型新突破

Kimi:从预训练、SFT和RLHF三步骤分析。首先预训练阶段数据配比至关重要,但最优比例尚无行业共识。Anthropic可能因代码优先级最高,预训练时投入大量高质量代码数据,使模型基座编程能力极强。对齐环节,大公司采用快速整合的YOLO RUN方式,不同团队按优先级推进创新。Anthropic可能将编程列为第一优先级,认为它是解决推理模型的钥匙。因此,从预训练到SFT、RLHF,都侧重编程训练,导致其他能力稍有欠缺。

我最近发现有趣现象:作为初创公司创始人,用同一段提示词让Gemini、ChatGPT等生成营销文案,OpenAI内容最吸引人,Claude则显得枯燥。这反映大模型训练的”垃圾进垃圾出”原则——喂入高质量代码,自然产出优质代码。Anthropic在代码问题上思考更深。

03 DeepMind与Google的模型发展路径

泓君:DeepMind之前的重点在哪里?Google模型价值观更偏向谁?

Kimi:DeepMind追求综合能力,在编程、数学、推理、写作等维度均衡发展。他们设定通用评估指标体系,但过去编程能力相对薄弱,因此投入更多资源。这一轮Google在代码能力上已追平Anthropic。至于推理能力,Google早期追赶OpenAI的写作和问题解决能力,后转向编程,现又聚焦推理,引领行业潮流。

数学能力方面,Grok表现突出,创始团队拥有顶尖数学家。但商业价值更重要——Anthropic联合创始人Dario强调编程模型应生成可直接投入生产流程的高质量代码,而非仅解决LeetCode题目。

04 DeepMind与Google的领导力与人才战略

泓君:DeepMind灵魂人物是谁?谷歌模型价值观更偏向谁?

Gemini 2.5弯道超车揭秘:AI强化学习如何引领大模型新突破

Kimi:Google模型发展得益于三位巨头:Jeff Dean代表预训练与基础设施能力,Oriol代表对齐与强化学习能力,Noam代表自然语言处理能力。他们形成三足鼎立格局,整合预训练、强化学习、语言能力。DeepMind和Google的合并是强强联合,Demis作为管理者和领导者,成功整合团队,激励聪明人才朝共同目标努力。

Jeff Dean现为首席科学家,Demis为CEO,均向Sundar Pichai汇报。Sergey Brin回归带来”Founder Mode”——创始人的工作状态,鼓舞团队士气。有团队因他的一句话选择周末加班,可见其影响力。

05 Google API价格优势的深层原因

泓君:Gemini API价格远低于OpenAI和Anthropic,Google如何实现这一突破?

Shaun:主要原因有三:第一,Google十年前开始大量投入TPU,避免”NVIDIA税”,TPU迭代速度近年加快;第二,Google基础设施能力极强,拥有几乎无限资源,动态调度能力远超OpenAI和Anthropic;第三,软硬件一体化优化模型,并依托强大开发者生态。DeepSeek论文显示其成本价仅收费20%,反推OpenAI利润极高,Google有足够资本和能力降低API价格。

Kimi:完全同意Shaun分析,Google内部基础设施能力确实超群。很早前SemiAnalysis报告将Google内部系统排在GPU云服务第一,远超OpenAI使用的CoreWeave。关于API成本价尚不明确,但Google有资本和能力实现低价策略。

文章网址:https://www.wpbull.com/ai/30173.html