多模态视频生成模型通义万相Wan2.2-S2V正式发布

通义万相Wan2.2-S2V多模态视频生成模型发布：解锁科学资讯新世界，提升您的职场竞争力！

## 全新多模态视频生成模型通义万相Wan2.2-S2V强势发布，简化数字人视频制作

阿里云于昨晚正式推出其最新的视频生成技术通义万相Wan2.2-S2V，并且宣布该技术实现开源。

Wan2.2-S2V的出现大幅度精简了视频制作流程。用户只需上传一张静态图片和一段音频，该模型便能生成面部表情真实、口型与音频完美契合、肢体动作流畅自然的高质量数字人视频。

该技术支持分钟级长视频的稳定输出，确保不仅仅是嘴部动，连同手势、表情及姿态均能实现同步。

通过在训练过程中深入挖掘跨域泛化能力，模型能够轻松驱动卡通人物、动物形象、二次元角色甚至艺术风格化人像，使得应用不再局限于真人肖像。

无论是萌宠的口语表现还是动漫角色的歌唱，Wan2.2-S2V均能精准呈现音画同步的效果。

产品提供480P和720P两种分辨率选择，以满足对于效率与画质兼顾的需求，适用于短视频、数字人及轻量影视制作等多种场景。