在 2024 年 8 月 14 日,一则关于大型语言模型(LLMs)安全漏洞的新闻引起了广泛关注。新闻指出,LLM 的 tokenizer 在解析输入字符串中的特殊 token 时,可能会导致类似于 SQL 注入的攻击。这种攻击方式利用了 tokenizer 的默认设置,将用户输入的特殊 token 解析为实际的特殊 token,从而破坏输入表示,导致 LLM 的输出异常。举例来说,当前 Huggingface 的 Llama 3 tokenizer 默认设置下,输入字符串中的特殊 token 可能会被错误解析,导致 LLM 的输出不符合预期。
为了应对这一问题,专家建议在 tokenize 时使用两个额外的标志:addspecialtokens=False 和 splitspecialtokens=True,并在代码中显式添加特殊 token。这些选项可以有效避免 tokenizer 错误解析特殊 token。此外,专家还建议使用 Chat Templates applychattemplate 来处理聊天模型的输入,这样可以确保特殊 token 被正确处理。
这一问题不仅限于 Huggingface 的 tokenizer,其他 LLM 如 ChatGPT 也存在类似的问题。研究人员发现,ChatGPT 在处理包含特殊 token 的字符串时,可能会删除这些 token,或者在某些情况下导致 LLM 的输出异常。为了验证这一问题,研究人员进行了多次实验,发现大约 50% 的代码存在与此相关的 bug。
2023 年 12 月 11 日,EMNLP 2023 大会上,北大和腾讯的研究团队发表了一篇题为《Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs Through a Global Prompt Hacking Competition》的论文,揭示了 LLM 在即时黑客攻击下的脆弱性。研究表明,当前的 LLM 确实可以通过即时黑客攻击进行操纵,导致模型输出不符合预期。
此外,Meta 团队在 2024 年 4 月发布了一篇关于多 token 预测的新训练方法的论文,展示了如何通过这种方法提升 LLM 的训练速度和性能。然而,这一方法并未解决 tokenizer 解析特殊 token 的问题。为了进一步提高 LLM 的安全性,研究人员建议在训练和推理过程中,始终可视化 token,并测试代码,以确保输入被正确解析。
2024 年 8 月 11 日,在 Black Hat 大会上,NVIDIA 的 Rich Harang 主持了一场关于 LLM 安全的研讨会,题为 “Practical LLM Security: Takeaways From a Year in the Trenches”。Harang 介绍了 LLM 常见的网络攻击类型,并提供了应对这些攻击的方法。同一天,NVIDIA 的 Daniel Rohrer 在 Trend Micro 的展位上主持了一场名为 “Trend Micro Innovist Session: A Visionary Approach to Securing Next-Generation AI Data Centers” 的演讲,介绍了如何利用 AI 技术来保护数据中心。
在这场研讨会上,专家们讨论了 LLM 的多种安全漏洞,包括提示词注入攻击和越狱攻击。提示词注入攻击利用了 LLM 对输入的高度依赖,通过构造特定的输入,攻击者可以诱使 LLM 输出不符合预期的内容。例如,研究人员发现,通过在输入的每个英文字符间插入空格,可以绕过 Meta 的 Prompt-Guard-86M 模型的防御,导致模型无法检测到有害内容。
越狱攻击则利用了 LLM 的上下文窗口漏洞。攻击者输入一个以数百个虚假对话为开头的提示,提示中包含有害的请求,就能迫使 LLM 产生潜在有害的反应。尽管 LLM 接受过禁止这样做的训练,但随着对话次数的增加,模型产生有害响应的概率也在增加。
为了应对这些安全挑战,研究人员提出了多种解决方案。例如,OpenAI 的安全系统团队负责人 Lilian Weng 在 2023 年 11 月 20 日发布了一篇博客文章,梳理了针对 LLM 的对抗攻击类型,并介绍了一些防御方法。Weng 建议,在训练过程中引入更多的安全机制,以提高 LLM 对对抗攻击的抵抗能力。
此外,Meta 团队在 2024 年 6 月发布了一篇关于 Llama 3 模型的研究论文,详细介绍了从 SentencePiece 到 Tiktoken 的 Tokenizer 变革。这一变革为最新模型带来了显著的性能提升和更多的功能。然而,研究人员指出,这一变革并未完全解决 tokenizer 解析特殊 token 的问题,仍需进一步研究和改进。