ChatGPT 也中招！LLM 特殊 token 解析问题引发关注

在 2024 年 8 月 14 日，一则关于大型语言模型（LLMs）安全漏洞的新闻引起了广泛关注。新闻指出，LLM 的 tokenizer 在解析输入字符串中的特殊 token 时，可能会导致类似于 SQL 注入的攻击。这种攻击方式利用了 tokenizer 的默认设置，将用户输入的特殊 token 解析为实际的特殊 token，从而破坏输入表示，导致 LLM 的输出异常。举例来说，当前 Huggingface 的 Llama 3 tokenizer 默认设置下，输入字符串中的特殊 token 可能会被错误解析，导致 LLM 的输出不符合预期。

为了应对这一问题，专家建议在 tokenize 时使用两个额外的标志：addspecialtokens=False 和 splitspecialtokens=True，并在代码中显式添加特殊 token。这些选项可以有效避免 tokenizer 错误解析特殊 token。此外，专家还建议使用 Chat Templates applychattemplate 来处理聊天模型的输入，这样可以确保特殊 token 被正确处理。

这一问题不仅限于 Huggingface 的 tokenizer，其他 LLM 如 ChatGPT 也存在类似的问题。研究人员发现，ChatGPT 在处理包含特殊 token 的字符串时，可能会删除这些 token，或者在某些情况下导致 LLM 的输出异常。为了验证这一问题，研究人员进行了多次实验，发现大约 50% 的代码存在与此相关的 bug。

2023 年 12 月 11 日，EMNLP 2023 大会上，北大和腾讯的研究团队发表了一篇题为《Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs Through a Global Prompt Hacking Competition》的论文，揭示了 LLM 在即时黑客攻击下的脆弱性。研究表明，当前的 LLM 确实可以通过即时黑客攻击进行操纵，导致模型输出不符合预期。

此外，Meta 团队在 2024 年 4 月发布了一篇关于多 token 预测的新训练方法的论文，展示了如何通过这种方法提升 LLM 的训练速度和性能。然而，这一方法并未解决 tokenizer 解析特殊 token 的问题。为了进一步提高 LLM 的安全性，研究人员建议在训练和推理过程中，始终可视化 token，并测试代码，以确保输入被正确解析。

2024 年 8 月 11 日，在 Black Hat 大会上，NVIDIA 的 Rich Harang 主持了一场关于 LLM 安全的研讨会，题为 “Practical LLM Security: Takeaways From a Year in the Trenches”。Harang 介绍了 LLM 常见的网络攻击类型，并提供了应对这些攻击的方法。同一天，NVIDIA 的 Daniel Rohrer 在 Trend Micro 的展位上主持了一场名为 “Trend Micro Innovist Session: A Visionary Approach to Securing Next-Generation AI Data Centers” 的演讲，介绍了如何利用 AI 技术来保护数据中心。

在这场研讨会上，专家们讨论了 LLM 的多种安全漏洞，包括提示词注入攻击和越狱攻击。提示词注入攻击利用了 LLM 对输入的高度依赖，通过构造特定的输入，攻击者可以诱使 LLM 输出不符合预期的内容。例如，研究人员发现，通过在输入的每个英文字符间插入空格，可以绕过 Meta 的 Prompt-Guard-86M 模型的防御，导致模型无法检测到有害内容。

越狱攻击则利用了 LLM 的上下文窗口漏洞。攻击者输入一个以数百个虚假对话为开头的提示，提示中包含有害的请求，就能迫使 LLM 产生潜在有害的反应。尽管 LLM 接受过禁止这样做的训练，但随着对话次数的增加，模型产生有害响应的概率也在增加。

为了应对这些安全挑战，研究人员提出了多种解决方案。例如，OpenAI 的安全系统团队负责人 Lilian Weng 在 2023 年 11 月 20 日发布了一篇博客文章，梳理了针对 LLM 的对抗攻击类型，并介绍了一些防御方法。Weng 建议，在训练过程中引入更多的安全机制，以提高 LLM 对对抗攻击的抵抗能力。

此外，Meta 团队在 2024 年 6 月发布了一篇关于 Llama 3 模型的研究论文，详细介绍了从 SentencePiece 到 Tiktoken 的 Tokenizer 变革。这一变革为最新模型带来了显著的性能提升和更多的功能。然而，研究人员指出，这一变革并未完全解决 tokenizer 解析特殊 token 的问题，仍需进一步研究和改进。