万相2.1开源模型评测:中文文生视频领先Sora?
开源周的热潮仍在继续,AI领域的创新者们纷纷展现出自己的实力。2月25日这一天,Claude发布了Sonnet 3.7版本,DeepSeek开源了DeepEP代码库,而阿里的万相2.1视频生成模型也正式亮相,共同构成了科技界的一幅精彩画卷。在众多AI技术中,视频生成模型无疑是最引人注目的焦点,它不仅吸引了开发者的目光,更让普通用户对AI的创造力产生了浓厚的兴趣。
万相2.1模型秉持着”能开尽开”的理念,向全球开发者开放了14B和1.3B两个参数的全部推理代码和权重。这一举措不仅支持文生视频和图生视频任务,更采用了宽松的Apache2.0协议,确保生成内容的版权完全归开发者所有,无论是用于免费渠道还是商业用途都毫无限制。在评测集VBench中,万相2.1的表现超越了Sora、Luma、Pika等国内外开源模型,展现出强大的技术实力。
## 模型实测:效果与挑战并存
在通义万相中,我们测试了2.1极速版和专业版两个版本,它们都是基于14B参数的模型。极速版生成速度约为4分钟,而专业版则需要1小时左右,但效果更为稳定。在文生视频方面,专业版对文本理解的精确度更高,画面清晰度也相对出色。然而,两个版本生成的视频都存在明显变形,对物理世界的细节理解有所欠缺。
以”参考盗梦空间拍摄方式,俯拍广角镜头,酒店走廊以每秒15度角持续旋转,两位西装特工在墙壁与天花板间翻滚格斗,领带受离心力影响呈45度飘起”为提示词,专业版生成的视频在动作设计上表现出色,但画面变形问题依然存在。而”红裙女孩在蒙马特阶梯跳跃,每级台阶弹出旧物收藏盒(发条玩具/老照片/玻璃弹珠),暖调滤镜下鸽子群组成心形轨迹,手风琴音阶与脚步节奏精确同步,鱼眼镜头跟拍”这一提示词则展现了专业版在细节处理上的优势。
万相2.1是目前全球首个能够直接生成中文文字的开源视频模型,虽然能够准确生成短文本,但超出一定长度就会出现乱码。在图生视频方面,效果相对稳定,人物一致性较高,但提示词理解不完整,细节表现不足。例如,珍珠奶茶视频中缺少珍珠,石矶娘娘的变身效果也未达到预期。
## 技术创新:低成本、高效果、高可控
万相2.1基于主流DiT架构和线性噪声轨迹Flow Matching,采用3D时空变分自动编码器(VAE)技术,称为Wan-VAE。这一创新通过改进时空压缩,大幅减少了内存使用,类似于将三维信息压缩为二维表示,从而解决了传统扩散模型在视频生成中的计算量过大、内存消耗过高的问题。
Wan-VAE技术将视频分解为低维表示,先生成二维信息再还原三维,或采用分层生成方法提升效率。这一技术不仅降低了内存占用,还解决了长视频生产难题,使得模型能够在消费级显卡上流畅运行。传统高清视频数据量过大,普通显卡难以处理,而万相通过降低分辨率生成视频,再使用超分模型提升画质,在不损失性能的情况下进一步减少了29%的推理时内存占用。
在生成效果方面,万相2.1实现了精细化的运动控制,允许用户通过文本、关键点或简单草图控制视频中物体的运动方式。模型将用户输入的运动轨迹转化为数学模型,并引入物理引擎计算结果,以提升运动的真实性。这些技术创新不仅解决了视频生成模型的大规模应用难题,还为后续迭代留下了广阔空间。
## 开源策略:打破商业模式,降低创作门槛
万相2.1的全面开源策略彻底打破了视频模型付费的商业模式,为普通用户降低了视频创作的门槛。其核心优势在于通过工程化能力解决实际生产场景中的难题,同时通过模块化设计为后续迭代提供了可能。2025年的视频生成赛道,万相2.1的出现无疑将带来更多精彩与创新。随着技术的不断发展和完善,我们有理由期待万相2.1在未来能够呈现更加出色的效果,为AI视频生成领域开启新的篇章。