Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

字节跳动发布 Seed-ASR,识别 13 种方言和 7 种语言

2024-08-21

2024 年 8 月 21 日,字节跳动发布了其最新的自动语音识别(ASR)模型 ——Seed-ASR。该模型在超过 2000 万小时的语音数据和近 90 万小时的配对 ASR 数据上进行了训练,能够识别普通话、13 种中国方言、各种口音的英语以及其他 7 种语言。Seed-ASR 具有上下文感知能力,能够在特定上下文下识别语音内容,例如利用历史对话或会议记录识别当前语音中的人名、地名或其他上下文相关的关键词。

Seed-ASR 模型的技术细节基于大语言模型(LLM)框架构建,专门设计用于处理来自不同语言、方言、口音和应用场景的多样化语音信号。Seed-ASR 通过结合大规模训练数据和上下文感知能力,提升了语音识别的准确性和鲁棒性。

在应用场景方面,Seed-ASR 具有广泛的适用性。它可以用于智能助手、语音搜索、会议记录、视频字幕生成等多个领域。例如,在智能助手应用中,Seed-ASR 可以通过语音识别和上下文感知能力,提供自然的用户交互体验。在会议记录中,Seed-ASR 可以利用历史对话记录,识别和记录会议内容,提升工作效率。

在与其他语音识别模型的对比中,Seed-ASR 具有多语言和方言识别的能力。FunAudioLLM 在多语言语音识别和情感识别上具有优势,但在处理复杂的上下文信息时,Seed-ASR 的表现更加出色。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5