Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
为什么大语言模型需要将单词拆分成多个 Token?

为什么大语言模型需要将单词拆分成多个 Token?

2024-07-26

在大语言模型(LLM)中,Token 和单词是两个不同的概念。一个单词可以由一个或多个 Token 组成。例如,单词 “strawberry” 可能会被分解成三个 Token:“str”、“aw” 和 “berry”。这种分解方式让 LLM 在处理文本时更加灵活,但也带来了一些挑战。

Andrej Karpathy 提出了一个方式来解释 Token 和单词的区别:将每个 Token 转换为一个独特的 Emoji。这种方法帮助我们直观地理解 LLM 看到的世界和我们看到的世界是不同的。每个 Token 就像一个小小的象形文字,LLM 需要从头开始学习它们的含义。

Token 在存储时并不是以字母的形式存在的,这使得 LLM 在处理某些任务时会遇到困难。例如,如果让 LLM 计算单词 “strawberry” 中有多少个字母 “r”,或者对其进行反转操作,这对 LLM 来说是相当困难的,因为它需要先将 Token 转换回单词,再进行操作。

Token 化的方式也有其优势。它让 LLM 能够更高效地处理和生成文本,特别是在处理多语言文本和长文本时。通过将文本分解成更小的单位,LLM 可以更好地理解和生成复杂的语言结构。

子词 Token 化中,常见的技术之一是 Byte Pair Encoding(BPE)。BPE 的原理是从最基础的字符开始,逐步合并那些经常一起出现的字符对,最后形成 Token。比如单词 “strawberry” 可能被拆成 “str”、“aw” 和 “berry” 三个 Token。这种方法不仅能减少模型需要记住的词汇量,还能高效地表示文本内容。

不同模型有着不同的上下文窗口大小,这直接影响了它们能处理的 Token 数量。比如,GPT-4 的 Token 化器(cl100k_base)能处理的 Token 数量大约是 GPT-2 的一倍,这意味着在相同的上下文窗口下,GPT-4 可以处理大约两倍于 GPT-2 的 Token。上下文窗口的大小直接决定了模型在处理长文本时的能力和效率。

在文本生成任务中,LLM 通常一次生成一个 Token。不过,Meta 的新开源模型通过一次生成多个 Token,提高了生成速度和准确性。

Token 化在机器翻译中也有重要作用。通过将文本分解为 Token,模型可以更好地理解原文并生成准确的翻译结果。Token 化帮助模型处理不同语言的复杂结构,提高翻译的准确性和流畅度。

通过 Token 化,模型可以更细致地分析文本中的情感信息。细粒度的 Token 化能捕捉到文本中的微妙情感变化,从而提供更准确的情感分析结果。

为了让基本的 LLM 更好地处理长上下文,研究人员提出了持续预训练的方法。这种方法通过修改位置编码,使模型能够处理更长的上下文。持续预训练提升了模型的上下文处理能力,增强了其在复杂任务中的表现。

大语言模型(LLMs)已经在许多领域应用。它们在文本生成、机器翻译、情感分析、对话系统和信息检索等传统自然语言处理任务中表现优异,还在医疗、法律、教育等领域展现出潜力。在对话系统中,LLMs 能生成自然流畅的对话;在医疗领域,它们可以协助医生进行诊断和提供治疗建议;在法律领域,LLMs 可以辅助律师撰写法律文书和进行案例分析。

LLMs 的发展催生了许多新的技术和工具。比如,Meta 推出的 LLM Compiler 能理解编译器中间代码。此外,LLM watermarking 技术通过在模型输出中嵌入不可见但可检测的信号,帮助识别由 LLM 生成的文本,从而防止滥用。

AI 日报

查看全部日报

  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地
  • 智能驾驶新进展!地平线吕鹏专业解析,市场定位有何玄机?
  • 日本 AI 创企 CADDi 狂揽 3.8 亿美元!制造业采购效率暴增 60%
  • 深度伪造鼻祖获 1750 万融资!Visa 等巨头已成客户

©2025 毫河风报 沪ICP备18012441号-5