Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

字节跳动推出 CLASI,端到端同声传译智能体如何超越传统?

2024-09-05

近日,字节跳动 ByteDance Research 团队推出了端到端同声传译智能体 CLASI(Cross Language Agent – Simultaneous Interpretation)。CLASI 采用了端到端的架构,规避了传统级联模型中错误传播的问题,依托于豆包基座大模型和豆包大模型语音组的语音理解能力,能够灵活调整各个环节的处理策略,确保高效传递信息的同时保持翻译内容的准确性和连贯性。

传统的同声传译软件通常采用级联模型(cascaded model)的方法,即先进行自动语音识别(ASR),然后再进行机器翻译(MT)。这种方法存在一个显著的问题 —— 错误传播。ASR 过程中的错误会直接影响到后续的翻译质量,导致严重的误差累积。此外,传统的同声传译系统由于受限于低延时的要求,通常只使用了性能较差的小模型,这在应对复杂多变的实际应用场景时存在瓶颈。

CLASI 系统采用了基于大语言模型(LLM)智能体的架构,将同声传译定义为一系列简单且协调的操作,包括读入音频流、检索(可选)、读取记忆体、更新记忆体、输出等。整个流程由大语言模型自主控制,从而在实时性和翻译质量之间达到了高效的平衡。CLASI 底层模型是一个 Encoder-conditioned LLM,在海量的无监督和有监督数据上进行了预训练。

CLASI 系统的技术特点包括:

  • 规避了级联模型中错误传播的问题。- 提供强大的语音理解能力。- 根据实际需求调整各个环节的处理策略,确保高效传递信息的同时保持翻译内容的准确性和连贯性。- 通过多模态检索增强生成(MM-RAG)过程,使 LLM 实时地具有领域特定的知识。
    在效果展示方面,字节跳动团队释出了一些视频,展示了 CLASI 在不同场景下的表现。以下是一些视频链接:

  • [即兴对话 – 星座](https://example.com/ 星座.mp4),时长 03:22- [朗读 – 赤壁赋](https://example.com/ 赤壁赋.mp4),时长 01:37- [绕口令](https://example.com/ 绕口令.mp4),时长 02:15
    在实验结果方面,CLASI 系统在中英、英中翻译语向上邀请专业同传译员进行了人工评测,使用了与人工同传一致的评价指标:有效信息占比(百分制)。结果显示,CLASI 系统在某些测试集上达到或超过了人类同传水平。一般认为人类同传平均水平大概在 80%,而 CLASI 在中英和英中方向上分别达到了 81.3% 和 78.0% 的有效信息占比。

字节跳动的研发团队还创造了一个新的评估指标 —— 有效信息比例(VIP),这个指标不仅看翻译的准确性,还关注传达有效信息的能力。据说,CLASI 在这个指标上优于现有的商业和开源系统。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5