支付宝开源 EchoMimicV2，推动虚拟主播和动画生成新革命

支付宝近期推出了技术 EchoMimicV2，该技术能够通过照片和音频生成半身动画视频，显著提高动画与声音的同步精度，并扩展了手势和上半身的动作表达。EchoMimicV2 主要应用于虚拟主播、视频制作及动画生成等领域。

该技术采用了音频 – 姿势动态协调策略（Audio-Pose Dynamic Harmonization），旨在解决现有技术通常仅专注于头部的问题。通过简化条件，这一策略还减少了复杂的条件注入模式。

EchoMimicV2 的核心技术包括 “头部部分注意力”（Head Partial Attention）和 “阶段特异去噪损失”（Phase-specific Denoising Loss）。这些技术提升了模型训练效果，使得半身人动画的同步性和展示质量得以改善。同时，EchoMimicV2 减少了附加控制条件，允许动画设计者更专注于音频和姿势的协调，实现复杂动画制作。

通过特别设计的去噪损失功能，该模型在生成过程中展现出更好的音视和谐与一致性，尤其在细致表情和姿态的情感与语义表达中表现突出。

随着 EchoMimicV2 的开源，研究者和开发者可以进一步探索其在不同应用场景中的潜力。如在虚拟教师的教育视频制作及广告创作中，这一技术已经显示出其应用价值。