Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

Meta 的开源语言模型颠覆语音交互:Spirit LM 基础与情感双模式

2024-10-21

Meta Platforms Inc. 的 Fundamental AI Research 团队于 2024 年 10 月 18 日推出了名为 Spirit LM 的开源多模态大语言模型。该模型能够同时处理文本和语音作为输入和输出,通过引入语音学、音高和音调标记,实现语音交互,并具备执行跨模态任务的能力。

Meta 提供了两个版本的 Spirit LM:基础版 Spirit LM Base 和 Spirit LM Expressive。Base 版专注于基本的语音处理功能,能够实现文本到语音和语音到文本的转换。Expressive 版则加入了音高和音调标记,能够表达更多的语音特征和情绪状态。两个版本都经过广泛的文本和语音数据集的训练。

Spirit LM 的应用范围包括智能客户服务、语音助手升级、教育、娱乐、辅助技术和多语言翻译等领域。其情感识别和表达能力适用于开发交互系统。Spirit LM 的开源性质为研究社区提供了开发的平台。

Meta 限制 Spirit LM 仅用于非商业研究目的,以体现对 AI 技术发展中伦理和安全问题的关注。

AI 日报

查看全部日报

  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地

©2025 毫河风报 沪ICP备18012441号-5