近日,上海交通大学和字节跳动的团队联合推出了一种名为 “Listening-while-Speaking Language Model”(LSLM) 的语音语言模型。这一技术通过融合 “说” 和 “听” 两个通道,使 AI 能够在说话的同时实时处理外部声音输入,从而实现对话交互。传统的语音对话系统往往采用 “轮流发言” 的半双工模式,容易在对话被打断时出现问题,而 LSLM 通过架构设计,使 AI 不仅能够生成语音,还能实时检测并响应用户的打断指令。
研究团队对 LSLM 进行了多项测试,包括基于特定指令的打断和各种风格的语音打断等场景。LSLM 模型的技术细节展示了其在语音交互领域的特点。该模型采用端到端设计,包含听觉和发声两个通道,使用解码器 – only TTS 进行语音生成,并使用流式自监督学习(SSL)编码器来实时处理音频输入。LSLM 解决了现有语音模型在实时交互、抗噪性和对未知说话者识别上的局限性。
LSLM 模型的实际应用场景广泛:
- 在智能家居领域,LSLM 可以用于智能音箱和家居控制系统,使用户能够在任何时候与设备进行对话,而不必等待设备完成当前任务。
- 在客服领域,LSLM 可以提升客户服务的效率和用户体验。客服 AI 助手可以在用户提出问题的同时,实时处理并提供答案,而不必等待用户说完。
- 在教育领域,AI 教师可以在讲解的同时,实时回答学生的问题。
- 在医疗领域,AI 医生可以在诊断过程中,实时与患者互动,提供医疗建议。
LSLM 模型的抗噪性和对新声音的敏感度也使其在嘈杂环境中表现良好。研究团队在多项测试中验证了这一点,包括在咖啡馆、街道和办公室等嘈杂环境中进行的测试。结果显示,LSLM 在这些环境中依然能够生成语音,并识别和响应用户的指令。