字节跳动最近发布了一款名叫 CLASI 的端到端语音同步翻译系统。CLASI 的设计灵感源自专业译员,能够进行实时翻译,同时确保翻译质量和低延迟。传统的同声传译软件通常采用级联模型的方法,先进行自动语音识别(ASR),再进行机器翻译(MT)。这种方法存在明显的局限性。一个大问题是级联模型容易出现错误传播,ASR 阶段的错误会直接影响到后续的翻译质量,导致整体效果不佳。另外,小模型在处理复杂场景时往往力不从心,无法应对多变的语境和复杂的语言结构,翻译结果常常不够准确和自然。
为了克服这些问题,字节跳动推出了 CLASI 端到端语音同步翻译系统。与传统的级联模型不同,CLASI 采用端到端的架构,直接从音频输入生成翻译结果,避免了中间环节的错误传播。依托于字节跳动的豆包基座大模型和语音组的语音理解能力,CLASI 系统能够在实时翻译中保持质量和低延迟。
CLASI 系统的架构基于大语言模型(LLM)智能体,采用了 Encoder-conditioned LLM 的预训练方法。这种架构能够利用大语言模型的自然语言处理能力,同时结合音频编码器的特性,实现语音到文本转换。通过预训练,系统能够在翻译过程中更好地理解和生成自然语言,提升翻译的准确性和流畅度。
CLASI 系统由多个功能模块组成,每个模块在实现同声传译中都发挥着关键作用:
- ** 音频流的读入与处理 **:系统首先读取并处理输入的音频流,通过音频编码器将语音信号转换为特征向量,为后续的翻译过程提供基础数据。
- ** 外部知识的检索与应用 **:在翻译过程中,系统能够从外部知识库中检索相关信息,补充翻译所需的背景知识,确保翻译结果的准确性和上下文一致性。
- ** 记忆体的读取与更新 **:系统具备记忆体功能,能够在翻译过程中读取和更新上下文信息,保持翻译的连贯性和一致性。
- ** 翻译结果的生成与输出 **:最终,系统通过大语言模型生成翻译结果,并将其输出为文本或语音形式,供用户实时使用。
CLASI 系统在应对复杂多变的实际应用场景时表现良好。不仅能够处理不清晰的语音,还能应对复杂术语的翻译需求。系统具备从外部知识库中检索相关信息的能力,这使得它在处理专业术语和特定领域内容时更加得心应手。此外,CLASI 能够根据实际需求灵活调整各个环节的处理策略,确保在不同场景下都能提供翻译服务。无论是在嘈杂的环境中,还是在面对多语言切换的场景,CLASI 都能保持稳定的翻译效果。