支付宝近期推出了技术 EchoMimicV2,该技术能够通过照片和音频生成半身动画视频,显著提高动画与声音的同步精度,并扩展了手势和上半身的动作表达。EchoMimicV2 主要应用于虚拟主播、视频制作及动画生成等领域。
该技术采用了音频 – 姿势动态协调策略(Audio-Pose Dynamic Harmonization),旨在解决现有技术通常仅专注于头部的问题。通过简化条件,这一策略还减少了复杂的条件注入模式。
EchoMimicV2 的核心技术包括 “头部部分注意力”(Head Partial Attention)和 “阶段特异去噪损失”(Phase-specific Denoising Loss)。这些技术提升了模型训练效果,使得半身人动画的同步性和展示质量得以改善。同时,EchoMimicV2 减少了附加控制条件,允许动画设计者更专注于音频和姿势的协调,实现复杂动画制作。
通过特别设计的去噪损失功能,该模型在生成过程中展现出更好的音视和谐与一致性,尤其在细致表情和姿态的情感与语义表达中表现突出。
随着 EchoMimicV2 的开源,研究者和开发者可以进一步探索其在不同应用场景中的潜力。如在虚拟教师的教育视频制作及广告创作中,这一技术已经显示出其应用价值。