AI巨头抢购创作者废片数据竞赛加剧

在数字内容创作的世界里，视频制作者们常常面临一个令人咋舌的现实：一部最终时长仅有十分钟的成品视频，背后却可能隐藏着数小时甚至更长时间的拍摄素材。这种「拍摄一小时，剪辑一分钟」的效率对比，在视频自媒体领域已是常态。而放眼电影行业，素材与成片的比例更是可以达到惊人的10:1到20:1，甚至更高。那些被最终剪辑掉的画面，被称为「废片」，它们在成片发布后往往被视为无用的数据，只能默默占据着硬盘空间。然而，一个令人意想不到的趋势正在悄然兴起——曾经被视为「垃圾」的废片，如今正成为大AI公司争相收购的宝贵资源。

AI巨头抢购创作者废片数据竞赛加剧

2024年1月11日，据外媒报道，OpenAI、Google、Moonvalley等科技巨头正在积极采购视频创作者们拍摄但未使用的「废片」。这些素材包括高质量的4K视频、无人机拍摄的画面、3D动画素材等，价格区间在1-4美元（约合7.3-30元）每分钟，而用于YouTube、TikTok、Instagram等平台的网络视频素材则售价在1-2美元（约7.3-15元）每分钟。从表面上看，只要废片质量上乘，一个小时的视频废片最高可售得1800元，这一数字甚至可能超过平台给予创作者的分成收入。

AI巨头抢购创作者废片数据竞赛加剧

01 AI巨头为何「饥不择食」？

AI巨头抢购创作者废片数据竞赛加剧

这些科技巨头之所以愿意为废片买单，根本原因在于视频数据的极度匮乏。无论是生成式视频模型、自动驾驶系统的训练，还是机器人的人工智能学习，都离不开海量的视频数据作为支撑。然而，优质视频的获取并非易事，不仅创作门槛高，而且在AI时代，视频版权的归属也呈现出模糊不清的状态。广告公司、电影制作公司的版权费用居高不下，而网络平台通常只拥有视频的发行权而非使用权。此外，与导演和制作团队签订的合同中，也鲜少涉及AI使用权的条款。视频网站同样面临版权难题，如果AI模型想要合法抓取YouTube的视频，是应该联系YouTube平台还是内容创作者，这一直是AI时代尚未解决的版权灰色地带。

AI巨头抢购创作者废片数据竞赛加剧

2024年4月，美国众议员提出的《生成式AI版权披露法案》更是将这一问题推向了风口浪尖。该法案要求数据集制作者向注册员提交「任何受版权保护作品的充分详细摘要」，否则将面临罚款。在此背景下，OpenAI、Google等AI公司另辟蹊径，选择了「不买成片买废片」的策略。不过，AI巨头并不直接与创作者接触，而是通过第三方专业公司作为桥梁，与平台和创作者建立联系，他们只负责支付费用。至于如何谈判、选择购买哪些素材、以及如何使用这些素材，则由中介公司和平台共同协商。据几家中介公司透露，他们目前已经采购了价值500多万美元的素材，合作的AI公司多达17家，包括OpenAI、Meta、微软等。

AI巨头抢购创作者废片数据竞赛加剧

AI公司购买废片后并非可以随意使用，而是需要经过第三方专业公司的「中介担保」，以确保废片的使用范围受到严格限制。这些限制包括：AI公司不能创建创作者的数字分身；不能在AI模型中重现创作者的专属场景，例如直接生成某个Up主的固定背景或使用其经典梗、口头禅等；也不能以损害创作者声誉的方式使用素材。对于网红YouTuber而言，他们的脸庞是「身份标识」，任何未经授权的使用都可能构成侵权。

AI巨头抢购创作者废片数据竞赛加剧

02 视频模型的军备竞赛

随着互联网内容的发展，带宽和信息量的激增，内容创作的重心逐渐从文字转向视频，大模型的发展也呈现出同样的趋势。视频模型成为过去一年大模型领域竞争最激烈的赛道，许多AI公司更是直接进军可以生成动态场景的「世界模型」领域。然而，无论哪种模型，数据都是其成长的「养料」，视频数据更是不可或缺。

因此，各大AI公司纷纷开启了视频数据的军备竞赛，谁能获取更多的视频数据，谁的视频模型就可能更具优势。在前不久的CES 2025上，英伟达发布了世界基础模型平台Cosmos，宣称其经过了2000万小时的视频训练量。然而，就在去年，英伟达就被404 Media爆出，在未经授权的情况下，违规抓取了大量YouTube和Netflix的视频用于训练名为Cosmos的产品。据英伟达内部聊天记录显示，其AI科学家和高管汇总了大量YouTube精选视频数据集用于模型训练，包括一个名为HD-VG-130M的数据集，该数据集由北大研究人员构建，包含1.3亿个YouTube数据，使用权限仅限于学术研究。在被质疑「YouTube服务条款禁止下载，数据也只能用于研究目的」后，英伟达高管表示「受版权保护的数据能否用于训练，目前是一个悬而未决的法律问题……在大语言模型上，我相信我们的法律团队已经批准了这种做法，因此也可能会批准视频训练。」在英伟达之前，OpenAI的视频大模型Sora就已经被YouTube点名批评。正在与OpenAI打官司的《纽约时报》率先报道，OpenAI采集了超过一百万小时的YouTube视频用于训练GPT-4。而对于Sora的训练数据来源，当时的OpenAI首席技术官（已离职）Mira Murati坦言「实际上，我也不确定」。YouTube CEO Neal Mohan对此回应称「如果OpenAI使用YouTube视频来训练Sora，就明确违反了YouTube的使用条款。」YouTube的态度十分明确，他们不会容忍任何未经授权的使用行为。

与此同时，一些视频模型另辟蹊径，力求在版权合规方面做到行业领先。即将在未来两个月内公布的新视频模型「Marey」就宣称要成为行业里「最干净」的，其团队声称已经全部获得了训练数据的授权，而且Marey的目标用户正是好莱坞和整个电影行业的大型工作室。这是因为电影不仅是视频质量素材的巅峰之作，也是对版权规范最为严格的视频领域。

对于网络视频创作者而言，废片本身的归宿往往是备份硬盘甚至回收站。如今，有大公司愿意出钱让这些「废片再利用」，如果这种模式能够持续运转，也不失为对小创作者的一种营收手段。对于更大牌的「创作者」，如电影公司、制片厂而言，AI技术早已渗透甚至改造了电影行业，从CGI生成、虚拟制作到AI合成语音、面部去老化等等，AI无非是一种提高影视制作效率的新技术手段。

然而，无论大小创作者，或许都对AI视频生成怀有一种「杀鸡取卵」的警惕感。试想，当一个创作者源源不断地把自己的废片卖给AI模型，当AI模型已经能够以假乱真地生成内容时，我们是否还真的需要一个具体的创作者出镜？当AI可以生成电影级空镜头、极具视觉冲击的特效时，电影行业是否还需要技术高超的摄影师、数字特效制作者……「学习你，追赶你，替代你」这是每一个创作者在面对生成式AI时，都难以避免的恐惧。在挡不住的AI浪潮下，废片还能卖钱，这总比免费当个「数据提款机」要强吧。

文章网址：https://www.wpbull.com/ai/5322.html

AI巨头抢购创作者废片 数据竞赛加剧

相关推荐

AI巨头抢购创作者废片数据竞赛加剧