AI巨头抢购创作者废片 数据竞赛加剧
在数字内容创作的世界里,视频制作者们常常面临一个令人咋舌的现实:一部最终时长仅有十分钟的成品视频,背后却可能隐藏着数小时甚至更长时间的拍摄素材。这种「拍摄一小时,剪辑一分钟」的效率对比,在视频自媒体领域已是常态。而放眼电影行业,素材与成片的比例更是可以达到惊人的10:1到20:1,甚至更高。那些被最终剪辑掉的画面,被称为「废片」,它们在成片发布后往往被视为无用的数据,只能默默占据着硬盘空间。然而,一个令人意想不到的趋势正在悄然兴起——曾经被视为「垃圾」的废片,如今正成为大AI公司争相收购的宝贵资源。
2024年1月11日,据外媒报道,OpenAI、Google、Moonvalley等科技巨头正在积极采购视频创作者们拍摄但未使用的「废片」。这些素材包括高质量的4K视频、无人机拍摄的画面、3D动画素材等,价格区间在1-4美元(约合7.3-30元)每分钟,而用于YouTube、TikTok、Instagram等平台的网络视频素材则售价在1-2美元(约7.3-15元)每分钟。从表面上看,只要废片质量上乘,一个小时的视频废片最高可售得1800元,这一数字甚至可能超过平台给予创作者的分成收入。
01 AI巨头为何「饥不择食」?
这些科技巨头之所以愿意为废片买单,根本原因在于视频数据的极度匮乏。无论是生成式视频模型、自动驾驶系统的训练,还是机器人的人工智能学习,都离不开海量的视频数据作为支撑。然而,优质视频的获取并非易事,不仅创作门槛高,而且在AI时代,视频版权的归属也呈现出模糊不清的状态。广告公司、电影制作公司的版权费用居高不下,而网络平台通常只拥有视频的发行权而非使用权。此外,与导演和制作团队签订的合同中,也鲜少涉及AI使用权的条款。视频网站同样面临版权难题,如果AI模型想要合法抓取YouTube的视频,是应该联系YouTube平台还是内容创作者,这一直是AI时代尚未解决的版权灰色地带。
2024年4月,美国众议员提出的《生成式AI版权披露法案》更是将这一问题推向了风口浪尖。该法案要求数据集制作者向注册员提交「任何受版权保护作品的充分详细摘要」,否则将面临罚款。在此背景下,OpenAI、Google等AI公司另辟蹊径,选择了「不买成片买废片」的策略。不过,AI巨头并不直接与创作者接触,而是通过第三方专业公司作为桥梁,与平台和创作者建立联系,他们只负责支付费用。至于如何谈判、选择购买哪些素材、以及如何使用这些素材,则由中介公司和平台共同协商。据几家中介公司透露,他们目前已经采购了价值500多万美元的素材,合作的AI公司多达17家,包括OpenAI、Meta、微软等。
AI公司购买废片后并非可以随意使用,而是需要经过第三方专业公司的「中介担保」,以确保废片的使用范围受到严格限制。这些限制包括:AI公司不能创建创作者的数字分身;不能在AI模型中重现创作者的专属场景,例如直接生成某个Up主的固定背景或使用其经典梗、口头禅等;也不能以损害创作者声誉的方式使用素材。对于网红YouTuber而言,他们的脸庞是「身份标识」,任何未经授权的使用都可能构成侵权。
02 视频模型的军备竞赛
随着互联网内容的发展,带宽和信息量的激增,内容创作的重心逐渐从文字转向视频,大模型的发展也呈现出同样的趋势。视频模型成为过去一年大模型领域竞争最激烈的赛道,许多AI公司更是直接进军可以生成动态场景的「世界模型」领域。然而,无论哪种模型,数据都是其成长的「养料」,视频数据更是不可或缺。
因此,各大AI公司纷纷开启了视频数据的军备竞赛,谁能获取更多的视频数据,谁的视频模型就可能更具优势。在前不久的CES 2025上,英伟达发布了世界基础模型平台Cosmos,宣称其经过了2000万小时的视频训练量。然而,就在去年,英伟达就被404 Media爆出,在未经授权的情况下,违规抓取了大量YouTube和Netflix的视频用于训练名为Cosmos的产品。据英伟达内部聊天记录显示,其AI科学家和高管汇总了大量YouTube精选视频数据集用于模型训练,包括一个名为HD-VG-130M的数据集,该数据集由北大研究人员构建,包含1.3亿个YouTube数据,使用权限仅限于学术研究。在被质疑「YouTube服务条款禁止下载,数据也只能用于研究目的」后,英伟达高管表示「受版权保护的数据能否用于训练,目前是一个悬而未决的法律问题……在大语言模型上,我相信我们的法律团队已经批准了这种做法,因此也可能会批准视频训练。」在英伟达之前,OpenAI的视频大模型Sora就已经被YouTube点名批评。正在与OpenAI打官司的《纽约时报》率先报道,OpenAI采集了超过一百万小时的YouTube视频用于训练GPT-4。而对于Sora的训练数据来源,当时的OpenAI首席技术官(已离职)Mira Murati坦言「实际上,我也不确定」。YouTube CEO Neal Mohan对此回应称「如果OpenAI使用YouTube视频来训练Sora,就明确违反了YouTube的使用条款。」YouTube的态度十分明确,他们不会容忍任何未经授权的使用行为。
与此同时,一些视频模型另辟蹊径,力求在版权合规方面做到行业领先。即将在未来两个月内公布的新视频模型「Marey」就宣称要成为行业里「最干净」的,其团队声称已经全部获得了训练数据的授权,而且Marey的目标用户正是好莱坞和整个电影行业的大型工作室。这是因为电影不仅是视频质量素材的巅峰之作,也是对版权规范最为严格的视频领域。
对于网络视频创作者而言,废片本身的归宿往往是备份硬盘甚至回收站。如今,有大公司愿意出钱让这些「废片再利用」,如果这种模式能够持续运转,也不失为对小创作者的一种营收手段。对于更大牌的「创作者」,如电影公司、制片厂而言,AI技术早已渗透甚至改造了电影行业,从CGI生成、虚拟制作到AI合成语音、面部去老化等等,AI无非是一种提高影视制作效率的新技术手段。
然而,无论大小创作者,或许都对AI视频生成怀有一种「杀鸡取卵」的警惕感。试想,当一个创作者源源不断地把自己的废片卖给AI模型,当AI模型已经能够以假乱真地生成内容时,我们是否还真的需要一个具体的创作者出镜?当AI可以生成电影级空镜头、极具视觉冲击的特效时,电影行业是否还需要技术高超的摄影师、数字特效制作者……「学习你,追赶你,替代你」这是每一个创作者在面对生成式AI时,都难以避免的恐惧。在挡不住的AI浪潮下,废片还能卖钱,这总比免费当个「数据提款机」要强吧。