Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

支付宝开源 EchoMimicV2,推动虚拟主播和动画生成新革命

2024-11-25

支付宝近期推出了技术 EchoMimicV2,该技术能够通过照片和音频生成半身动画视频,显著提高动画与声音的同步精度,并扩展了手势和上半身的动作表达。EchoMimicV2 主要应用于虚拟主播、视频制作及动画生成等领域。

该技术采用了音频 – 姿势动态协调策略(Audio-Pose Dynamic Harmonization),旨在解决现有技术通常仅专注于头部的问题。通过简化条件,这一策略还减少了复杂的条件注入模式。

EchoMimicV2 的核心技术包括 “头部部分注意力”(Head Partial Attention)和 “阶段特异去噪损失”(Phase-specific Denoising Loss)。这些技术提升了模型训练效果,使得半身人动画的同步性和展示质量得以改善。同时,EchoMimicV2 减少了附加控制条件,允许动画设计者更专注于音频和姿势的协调,实现复杂动画制作。

通过特别设计的去噪损失功能,该模型在生成过程中展现出更好的音视和谐与一致性,尤其在细致表情和姿态的情感与语义表达中表现突出。

随着 EchoMimicV2 的开源,研究者和开发者可以进一步探索其在不同应用场景中的潜力。如在虚拟教师的教育视频制作及广告创作中,这一技术已经显示出其应用价值。

AI 日报

查看全部日报

  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地
  • 智能驾驶新进展!地平线吕鹏专业解析,市场定位有何玄机?
  • 日本 AI 创企 CADDi 狂揽 3.8 亿美元!制造业采购效率暴增 60%

©2025 毫河风报 沪ICP备18012441号-5