DeepSeek V3称自己为ChatGPT引热议:AI模型为何频现“报错家门”现象
要说近期大模型领域的焦点人物,DeepSeek V3无疑是当之无愧的顶流。然而在这股热潮中,一个有趣的bug也意外走红,引发了广泛关注——DeepSeek V3在自我介绍时,竟然少了一个关键的问号,却自称是ChatGPT。更令人惊讶的是,当被要求讲笑话时,它的回答方式也惊人地与ChatGPT如出一辙。加之DeepSeek V3此次爆火的另一大亮点,就是其训练成本仅耗时557.6万美元。这些现象不禁让人浮想联翩:难道DeepSeek V3是在ChatGPT的基础上进行训练的吗?恰逢此时,OpenAI创始人Altman的一条动态发布,似乎也暗藏玄机……不过需要明确的是,DeepSeek V3并非首个出现“认错家门”的大模型。此前Gemini也曾宣称自己是百度的文心一言。那么这究竟是怎么回事?为什么DeepSeek V3会闹出这样的乌龙?
从目前网友们的讨论来看,DeepSeek V3是在ChatGPT输出上进行训练的可能性极小。正如网友Riley Goodside所分析的那样,即便DeepSeek V3刻意使用了ChatGPT的输出作为训练数据,这也不足以解释其表现。毕竟所有在ChatGPT之后出现的大模型,几乎都接触过它的数据。例如ShareGPT这个并不新鲜的ChatGPT对话数据集,许多人已经尝试在它和其他ChatGPT数据源上进行调整,但即便如此,也未能诞生出DeepSeek V3这样的优秀模型。
Riley Goodside还引用了DeepSeek V3报告中的证据:如果DeepSeek V3使用了ChatGPT数据,那么一些关于其质量的问题就难以解释。例如Pile测试(基础模型压缩Pile的效果),DeepSeek V3的得分几乎与Llama 3.1 405B相当,这与它是否接触过ChatGPT数据无关。报告还显示,95%的GPU-hours用于预训练基础模型,即便与ChatGPT数据有关,这部分也只会发生在post-training阶段(后5%)。相比之下,我们或许更应该关注的是,为什么大模型会频繁出现“认错家门”的问题。
TechCrunch对此给出了一个犀利点评:因为AI公司获取数据的主要来源——网络,正在被AI垃圾所充斥。欧盟的一份报告曾预测,到2026年,90%的在线内容可能由AI生成。这种“AI污染”使得“训练数据彻底过滤AI的输出”变得异常困难。AI Now Institute的首席科学家Heidy Khlaaf表示,尽管存在风险,但开发者依然被从现有AI模型中“蒸馏”知识所带来的成本节约所吸引。值得注意的是,意外地在ChatGPT或GPT-4输出上进行训练的模型,也不一定会表现出让人联想到OpenAI定制消息的输出。
针对网友们热议的问题,量子位进行了一波实测,结果显示DeepSeek V3目前尚未解决这个bug。当它回答问题时,依旧会少个问号,结果也会有所不同。尽管如此,绝大多数网友对DeepSeek V3的能力给予了高度评价。从各路AI大佬们集体直呼“优雅”的反馈中,就能看出其出色的表现。近段时间,网友们还陆续晒出了更多DeepSeek V3的实用玩法。例如有网友将其与Claude Sonnet 3.5进行对比,在Scroll Hub中分别用它们创建网站,结果DeepSeek V3的表现显然更胜一筹。
值得一提的是,此前公布的53页论文中,也有网友关注到一个非技术性的细节——贡献列表不仅展示了技术人员,还有数据注释和商务等工作人员。这种做法被认为非常符合DeepSeek的调性。