DeepSeek开源大模型惊艳硅谷:低成本创新引领AI新潮流

DeepSeek – V3 的横空出世,在硅谷掀起了一场前所未有的 AI 革命。这款由中国杭州人工智能创业公司 DeepSeek 开发的大语言模型,以其惊人的性能和极低的成本,打破了传统认知,成为 AI 领域的颠覆性力量。在 2024 年 12 月发布时,DeepSeek – V3 就已展现出超越同侪的卓越能力:仅用 550 万美元和 2000 块英伟达 H800 GPU(针对中国市场的低配版),其性能竟超越了 Qwen2.5-72B 和 Llama-3.1-405B 等顶级开源模型,甚至与 GPT-4o 和 Claude 3.5-Sonnet 这样世界顶级的闭源模型不相上下。要知道,训练后者所需的成本保守估计也要数亿美元和数十万块最强劲的英伟达 H100。这一突破性成果在 AI 界引发了巨大震动,尤其是在资源密集的硅谷,DeepSeek – V3 的出现无疑是对现有格局的挑战。

硅谷的 AI 研究者和开发者对 DeepSeek 的赞誉如潮。OpenAI 联合创始人 Andrej Kaparthy 和 Scale.ai 的创始人 Alexandr Wang 都不吝惜对 DeepSeek 的称赞。尽管 OpenAI CEO Sam Altman 曾发布疑似影射 DeepSeek 抄袭的推文(后迅速被回怼),但 DeepSeek 在开源社区中获得的赞誉却是广泛而真诚的,开发者用脚投票,证明了其技术的实力。Andrej Kaparthy 甚至认为 DeepSeek 的技术报告值得反复研读。

DeepSeek – V3 也被视为中国式创新的典范。中国的研究人员和工程师在资源有限的情况下,通过技术创新和精进,实现了超预期的成果。DeepSeek – V3 对高性能算力的依赖极小,将训练和推理视为一个系统,提出了诸多新的技术思路,注重用工程思维高效解决算法和技术问题,集中力量办大事,这正是中国公司、团队和研究人员的优势所在。Alexandr Wang 总结道:美国人在休息,中国人在奋斗,以更低的成本、更快的速度和更强大的战斗力追赶。

DeepSeek开源大模型惊艳硅谷:低成本创新引领AI新潮流

美国科技界对中国的一些成功经验常归结为聪明、勤奋和方法创新,这固然有道理,但无法解释为何中国的其他大模型公司和 AI 人才同样具备这些特质,却未能引发如此轰动的世界级效应。当然,未来他们也可能取得突破,但至少目前,DeepSeek 的成功显得格外引人注目。

将 DeepSeek 比喻成“AI 界的拼多多”并不准确,认为其成功仅源于多快好省也过于片面。中国的大多数 AI 公司都面临算力短缺的问题,并因此拼命进行架构创新,DeepSeek 也不例外。然而,DeepSeek 在硅谷的关注和追捧并非始于近期。早在 2024 年 5 月,DeepSeek – V2 发布时,其多头潜在注意力机制(MLA)架构就已在硅谷引发小范围轰动,论文在 AI 研究界引发广泛讨论。当时一个有趣的现象是:X 和 Reddit 上 AI 从业者热议 DeepSeek – V2,而国内舆论场则将其描绘成“大模型价格战的发起者”,仿佛平行时空。

DeepSeek 与硅谷的对话和交流密码,或许正是其成功的关键。它的秘诀应该是“硅谷味儿的”。如果要在全球 AI 玩家里为 DeepSeek 找一个对标,那么 2022 年之前的 OpenAI 和 DeepMind 或许是最佳选择。那时的 OpenAI 和 DeepMind 更像是非营利性学术研究机构,尽管 OpenAI 已被微软投资转型为营利性公司,但其工作方式仍带有浓厚的非营利机构色彩,首席科学家 Ilya Sustkever 和联合创始人 Andrej Kaparthy 为代表的那群人,仍保持着学术研究的纯粹性。DeepMind 尽管名义上是一家创业公司,但更像是一家研究机构,AlphaGo 和 AlphaFold 都是研究项目,而非商业化产品。

DeepSeek开源大模型惊艳硅谷:低成本创新引领AI新潮流

DeepSeek 是否有产品?可以说有,普通用户可以直接与模型聊天,还提供低价的 API。但除了网站,DeepSeek 没有移动 APP,也不进行产品运营、流量广告投放或社交媒体营销,也不提供贴心的 prompt 模板。这种纯粹的研究机构风格,与大多数中国 AI 公司形成了鲜明对比。在企业和开发者一侧,DeepSeek 除了通过架构创新大幅降低成本,推出极具竞争力的 API 价格外,并未参与“加速计划”、“开发者大赛”、“产业生态基金”等商业活动。这表明 DeepSeek 目前真心不打算商业化。

DeepSeek 的研究人员密度极高。量子位近期对 DeepSeek – V3 论文作者的梳理显示,团队主力来自清华、北大、北航等中国顶级高校的应届博士毕业生、顶刊论文发表者、信息竞赛获奖者,甚至包括硕博在读生。团队构成极其年轻。创始人梁文锋曾透露,公司招人标准是看能力不看经验,核心技术岗位以应届和毕业一两年为主。这种模式与 OpenAI 和 DeepMind 早期的人才结构如出一辙:用最年轻、最聪明、最不受拘束的头脑,创造前人未有的成果。DeepSeek 营造了一种氛围:最聪明的年轻人进入一家看似公司的机构,继续延续他们的学术生涯,并获得比高校实验室多得多的计算资源和研究数据。科技公司的研究机构成为科学家的“国中之国”,逐渐取代高等院校成为学术成果的主要贡献者。越不受商业目标干扰,产生颠覆性学术成果的机会就越大。Google 的研究人员提出 Transformer 架构是在 Google 商业化目标尚不清晰的 2017 年,而 OpenAI 的 GPT-3 和 GPT-3.5 关键时刻的诞生,都是在聚光灯之外。当 OpenAI 越来越像一家公司时,一切都乱了。DeepSeek 与大多数中国 AI 创业公司的不同之处,恰恰在于它更像一家研究机构。

这轮 AI 创业的创始人大多是科学家和研究人员,但他们手握 VC 和 PE 的资金,却不能随心所欲地搞研究和发 paper,而必须聚焦产品化和商业化。科技巨头可以养得起研究机构和科学家,但一旦要求研究成果迅速应用于产品和商业,团队就会变得复杂,失去纯研究人员的简单和清澈。美国的一些科技巨头有不受商业目标干扰的研究机构,但时间久了,难免沾染学术界的论资排辈。只有由最聪明的年轻人组成的商业公司的研究机构,才曾在关键时间点出现过——几年前的 OpenAI 和 DeepMind,以及现在的 DeepSeek。

DeepSeek开源大模型惊艳硅谷:低成本创新引领AI新潮流

一个证据是 DeepSeek 的论文。无论是 V-2 还是 V-3 的发布,DeepSeek 的论文都得到了全球研究者的仔细阅读、分享、引用和大力推荐。相比之下,GPT-4 发布后 OpenAI 公布的论文几乎不能称为论文。如今,做模型的都在抢在各种 benchmark 上拿名次,注重论文质量的已不多见。而一篇详尽、规范、实验细节丰富的论文,仍能获得业界额外的尊重。当然,这需要 DeepSeek 有足够的财力,有不输于巨头、远多于创业公司的弹药。但并非所有巨头都愿意拥有自己的 DeepMind。

开源永远是正确的。2023 年初,科技媒体 The Information 盘点中国可能出现的人工智能明星创业公司时,智谱和 Minimax 在列,百川智能、零一万物和光年之外也被提及,但 DeepSeek 并未上榜。至少一年半前,没人真正把 DeepSeek 当成 AI 圈内人。尽管业界已流传 DeepSeek 母公司幻方握有大量英伟达高性能显卡,但没人相信它能自己做大模型会有水花。如今,人人都在谈论 DeepSeek,且走的又是“墙外开花墙内香”的老路。从第一天开始,DeepSeek 与国内诸多大模型新秀选择的就不是同一个战场。它不拿融资,不用争抢大模型四小龙六小虎的座次,不比国内舆论声势,不搞产品投放投流。它选择的是与研究机构本质最匹配的路径——走全球开源社区,分享最直接的模型、研究方法和成果,吸引反馈,再迭代优化,自我进益。开源社区迄今仍是 AI 学术研究、分享和讨论最热烈、充分、自由和无国界的地方,也是 AI 领域最不“内卷”的地方。DeepSeek 从第一天就开源,应是深思熟虑的结果。开源就要真开源,开得彻底,从模型权重、数据集到预训练方法,悉数公开,高质量的论文也是开源的一部分。年轻聪明的研究人员在开源社区的亮相、分享和活跃具有高能见度。看见他们的人,不乏全球 AI 领域最重要的推动者。聪明的年轻 AI 研究人员 + 研究机构的氛围(配上大厂的 package)+ 开源社区的分享和交流,提高了 DeepSeek 在全球 AI 领域的影响力和声望。对以产生 AI 研究成果为主要目标的机构而言,Hugging Face 和 Reddit 就是最好的发布会会场,数据集和代码库就是最好的 demo,论文就是最好的新闻稿。DeepSeek 基本就是这么做的,而且做得很讲究。因此,即便 DeepSeek 的研究人员和 CEO 鲜少接受媒体采访,也几乎从不在论坛和活动上分享技术经验和洞察,但没人能说它没做营销。反之,以证明中国 AI 原创研究可以引领全球趋势、招聘最聪明的研究人员为目的,DeepSeek 的“营销”是极其精准和有效的。

过去一年,中国的开源大模型在全球 AI 研究和产品方面赢得了不少尊敬。一个普遍看法是:比起美国和欧洲的一些开源模型,中国的开源大模型在开源程度上更为彻底,更容易被研究人员和开发者直接拿过来研究或优化自己的模型。DeepSeek 就是典型代表,除了 DeepSeek,阿里巴巴的通义(Qwen)也被 AI 研究领域普遍认为开源态度较为真诚,面壁智能的小模型 Mini-CPM-Llama3-V 2.5 因被斯坦福本科生团队直接套壳意外走红了一把。因此,国际 AI 界特别是硅谷认为中国大模型的代表玩家是 DeepSeek 和阿里巴巴,而我们自己觉得是豆包、可灵和所谓的 AI 六小龙。客观地说,就国际 AI 界特别是硅谷能公正、积极地看待中国 AI 创新能力和对全球社区的贡献方面,DeepSeek 和阿里巴巴们做得更多。

V-3 是 DeepSeek 的 GPT-3 时刻。V-3 模型引发了破圈的国际反应,CNBC 的报道已将其及背后的 DeepSeek 视作中国 AI 迎头赶上美国的标志。如果仔细观察,不难发现:DeepSeek 从隐秘低调到备受关注,以及它从 Coder 到 V-3 模型的三次迭代,与 OpenAI 从 GPT-1 到 GPT-3 的升级节奏和引发的反响非常接近。我们先看看 OpenAI——2018 年 OpenAI 发布 GPT-1 模型,是它第一个基于 Transformer 架构的预训练模型,证明了语言模型是一个有效的预训练目标,但质量和多样性有限,引发了一定的学界关注,整体反应平常。2019 年早些时候,OpenAI 推出 GPT-2,生成文本的质量和多样性大幅跃迁,基本验证了语言模型这条路的有效性,也引发了 AI 领域广泛的讨论和关注。2020 年 6 月,OpenAI 发布 GPT-3,以 1750 亿参数成为当时世界上最大的语言模型,除了生成文本内容,还能进行翻译、问答和持续对话和思考,成为生成式人工智能发展的里程碑。即便如此,GPT-3 仍然是一个实验室项目。让我们再看 DeepSeek——2023 年 11 月,DeepSeek 发布了两款开源模型 DeepSeek Coder 和 DeepSeek LLM, 只有少数人关注,它们在计算的效率和可扩展性上遇到了挑战。2024 年 5 月,DeepSeek 发布 V-2,以混合专家模型(MoE)和多头潜在注意力机制(MLA)技术的结合,大幅降低了模型训练特别是推理的成本,且性能可以在很多维度与世界顶尖模型相比较,开始引发 AI 学术界和开发者的广泛讨论和推荐,这是 DeepSeek 走进更多人视野的开始。2024 年 12 月,DeepSeek 发布 V-3,以 OpenAI、Anthropic 和 Google 百分之一的成本,实现了模型性能超越同类开源模型 Llama 3.1 和 Qwen 2.5,媲美闭源模型 GPT-4o 和 Claude 3.5 Sonnet 的成绩,引发轰动,成为世界大语言模型发展的里程碑。可以说,V-3 就是 DeepSeek 的“GPT-3”时刻,一个里程碑。当然,DeepSeek 与 OpenAI 在实现里程碑式跃迁的进程中区别在于——OpenAI 在这一进程中一直致力于实现计算资源规模与成本的无限扩张,而 DeepSeek 则一直致力用尽可能低成本的计算资源实现更高的效率。OpenAI 花了两年时间达到 GPT-3 时刻,而 DeepSeek 用了一年摘得了 V-3 的圣杯。OpenAI 在 GPT 路线上一直聚焦在预训练的进步,而 DeepSeek 则是训练与推理并重——这也是全球模型技术发展趋势的要求。如果 V-3 真的是 DeepSeek 的 GPT-3 时刻,那接下来将发生什么?是 DeepSeek 的 GPT-3.5——也就是 ChatGPT 时刻,或是其它?没人知道,但有意思的事儿应该还在后头。DeepSeek 应该不会永远是一个“计算机系 Pro”的存在,它也理应为全人类的人工智能事业做出更大的贡献。无论如何,DeepSeek 已经是中国最全球化的 AI 公司之一,它赢得来自全球同行甚至对手的尊重的秘方,也是硅谷味儿的。

文章网址:https://www.wpbull.com/ai/999.html