阿里云于昨晚正式推出其最新的视频生成技术通义万相Wan2.2-S2V,并且宣布该技术实现开源。
Wan2.2-S2V的出现大幅度精简了视频制作流程。用户只需上传一张静态图片和一段音频,该模型便能生成面部表情真实、口型与音频完美契合、肢体动作流畅自然的高质量数字人视频。
该技术支持分钟级长视频的稳定输出,确保不仅仅是嘴部动,连同手势、表情及姿态均能实现同步。
通过在训练过程中深入挖掘跨域泛化能力,模型能够轻松驱动卡通人物、动物形象、二次元角色甚至艺术风格化人像,使得应用不再局限于真人肖像。
无论是萌宠的口语表现还是动漫角色的歌唱,Wan2.2-S2V均能精准呈现音画同步的效果。
产品提供480P和720P两种分辨率选择,以满足对于效率与画质兼顾的需求,适用于短视频、数字人及轻量影视制作等多种场景。