Meta Platforms Inc. 的 Fundamental AI Research 团队于 2024 年 10 月 18 日推出了名为 Spirit LM 的开源多模态大语言模型。该模型能够同时处理文本和语音作为输入和输出,通过引入语音学、音高和音调标记,实现语音交互,并具备执行跨模态任务的能力。
Meta 提供了两个版本的 Spirit LM:基础版 Spirit LM Base 和 Spirit LM Expressive。Base 版专注于基本的语音处理功能,能够实现文本到语音和语音到文本的转换。Expressive 版则加入了音高和音调标记,能够表达更多的语音特征和情绪状态。两个版本都经过广泛的文本和语音数据集的训练。
Spirit LM 的应用范围包括智能客户服务、语音助手升级、教育、娱乐、辅助技术和多语言翻译等领域。其情感识别和表达能力适用于开发交互系统。Spirit LM 的开源性质为研究社区提供了开发的平台。
Meta 限制 Spirit LM 仅用于非商业研究目的,以体现对 AI 技术发展中伦理和安全问题的关注。