阶跃星辰开源全球最大参数量30B开源视频模型Step-Video-T2V
阶跃星辰与吉利汽车集团强强联手,共同开源了两款重磅多模态大模型,为全球AI领域注入强劲动力!这两款模型分别是:全球参数量最大的开源视频生成模型Step-Video-T2V,以及行业内首款产品级开源语音交互大模型Step-Audio。作为多模态模型的领军者,阶跃星辰此次以开放姿态,将这两款尖端模型以最宽松的MIT开源协议释放给公众,充分展现了其技术自信与产业赋能的决心。(获取方式:GitHub、抱抱脸、魔搭均有资源)
在研发过程中,双方在算力算法、场景训练等领域实现优势互补,显著提升了多模态大模型的性能表现。官方技术报告显示,这两款开源模型在Benchmark测试中表现卓越,性能超越国内外同类模型。抱抱脸官方也转发了中国区负责人给予的高度评价,称其为“下一个DeepSeek”、“HUGE SoTA”。量子位将深入剖析技术报告并实测验证,看看它们是否名副其实。目前,这两款新模型已接入跃问App,用户可免费体验。
作为阶跃星辰首次开源的多模态模型,Step-Video-T2V和Step-Audio备受瞩目。先来聚焦全球参数量最大的开源视频生成大模型——Step-Video-T2V。其30B的参数量使其成为行业标杆,原生支持中英双语输入,具备四大核心技术优势:
第一,可直接生成最长204帧、540P分辨率的视频,确保内容高度一致性与信息密度。第二,针对视频生成任务设计的高压缩比Video-VAE,能在保持重构质量的前提下,将视频空间维度压缩16×16倍,时间维度压缩8倍,训练和生成效率提升64倍。第三,对DiT模型的超参设置、结构及训练效率进行深度优化,保障训练过程高效稳定。第四,完整呈现预训练与后训练策略,涵盖各阶段任务目标、数据构建筛选方式。此外,模型在训练后期引入Video-DPO(视频偏好优化)算法,进一步提升生成视频的合理性与稳定性,使运动更流畅、细节更丰富、指令对齐更精准。
为全面评估文生视频质量,阶跃发布了全新基准数据集Step-Video-T2V-Eval。该数据集包含128条真实用户中文评测问题,覆盖运动、风景、动物、组合概念、超现实等11个内容类别。评测结果显示,Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等维度全面超越此前最佳开源视频模型,为整个领域提供了新的研究与创新基础。实际效果方面,阶跃官方介绍,Step-Video-T2V在复杂运动、美感人物、视觉想象力、基础文字生成、中英双语输入和镜头语言等方面表现突出,语义理解与指令遵循能力卓越,能有效助力视频创作者实现精准创意呈现。
量子位实测验证了这些宣称:第一关测试复杂运动生成能力。以往模型在生成芭蕾/国标舞、艺术体操等片段时,常出现三只腿、双臂交叉等怪异画面。而Step-Video-T2V生成的羽毛球场面,人物动作、场景、镜头、光线完全吻合,细节逼真。第二关挑战美感人物生成。生成的男性角色五官端正、皮肤纹理真实、伤痕清晰,被评价为“没什么AI感”,兼具逼真与自然表情。第三关测试运镜能力。模型能精准执行推拉摇移等指令,生成效果展现出色的语义理解与指令遵循能力,甚至能轻松生成基础文字内容。
另一款开源模型Step-Audio是行业内首款产品级语音交互模型。在阶跃自建的多维度评估体系StepEval-Audio-360测试中,Step-Audio在逻辑推理、创作能力、指令控制等六大维度均取得最佳成绩。在LlaMA Question、Web Questions等五大主流公开测试集中,其性能均超越同类开源模型。尤其在HSK-6评测中表现亮眼。实测发现,Step-Audio能根据场景需求生成情绪、方言、语种、歌声等多样化表达,与用户实现自然高质量对话。其生成的语音逼真自然、高情商,还能实现音色复刻与角色扮演,满足影视娱乐、社交、游戏等行业的应用需求。
阶跃开源生态的崛起堪称“卷王”本色。旗下Step系列多模态模型屡次斩获权威评测榜首:去年11月,Step-1V在多模态理解大模型榜单中位列视觉领域中国大模型第一;今年1月,Step-1o系列又夺得国内多模态模型评测实时榜单冠军。截至最新,阶跃已发布11款多模态大模型,上个月更是6天连发6模型,覆盖全赛道。此次开源的Step-Video-T2V和Step-Audio再次巩固其“多模态卷王”地位。凭借强大实力,阶跃API自2024年开始被市场广泛接入,形成庞大用户基础。茶百道全国数千门店接入Step-1V进行智能巡检,日均服务上百万杯茶饮;独立开发者“胃之书”“林间聊愈室”等也选择阶跃API(因付费率高)。2024年下半年,阶跃多模态大模型API调用量增长超45倍。
此次开源充分展现阶跃的技术自信与产业赋能决心。Step-Video-T2V采用MIT协议,可任意编辑和商业应用;Step-Audio提供零部署的实时对话方案,直接实现端到端体验。这两款模型已初步形成阶跃专属开源技术生态,技术、创意与商业价值相互交织,推动多模态技术发展。随着模型持续迭代、开发者快速接入、生态伙伴合力,阶跃生态的“滚雪球效应”已显现,并持续壮大。
中国开源力量正以实力改写全球AI版图。曾几何时,Meta的LLaMA、Albert Gu的Mamba才是开源领域的佼佼者。如今,中国大模型届开源力量已闪耀全球。1月20日,DeepSeek-R1问世,推理性能媲美OpenAI o1但成本仅其三分之一,引发全球震动。其开源属性更让OpenAI CEO奥特曼公开表示“站在了历史错误的一边”,承认世界需要开源模型。阶跃此次开源新王牌,正是中国开源力量崛起的又一例证。官方表示,开源目的在于促进技术共享与创新,推动AI普惠发展。在DeepSeek强推理、阶跃重多模态等选手的带领下,中国开源大模型正突破技术壁垒,改变全球开发者选择逻辑。Eleuther AI等技术大V主动测试并感谢中国开源,抱抱脸中国区负责人王铁震更称阶跃为“下一个DeepSeek”。
从技术突围到生态开放,中国大模型之路越走越稳。阶跃此次开源双模型,或许只是2025年AI竞赛的注脚,但更展现了中国开源力量的技术自信,并传递出明确信号:在未来的AI大模型世界,中国力量绝不缺席,也绝不落于人后。
【Step-Video-T2V】
GitHub:https://github.com/stepfun-ai/Step-Video-T2V
抱抱脸:https://huggingface.co/stepfun-ai/stepvideo-t2v
魔搭Model Scope:https://modelscope.cn/models/stepfun-ai/stepvideo-
技术报告:https://arxiv.org/abs/2502.10248
体验入口:https://yuewen.cn/videos
【Step-Audio】
GitHub:https://github.com/stepfun-ai/Step-Audio
抱抱脸:https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
魔搭Model Scope:https://modelscope.cn/collections/Step-Audio-a47b227413534a
技术报告:https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf