参议员公开信质疑 OpenAI 安全标准，GPT-4o 面临哪些挑战？

2024 年 8 月 9 日，OpenAI 发布了其最新的 GPT-4o 系统卡，这是一份详细的研究文件，概述了公司在发布最新模型之前进行的安全措施和风险评估。根据 OpenAI 的框架，研究人员发现 GPT-4o 的总体风险为 “中等”。这一评估是基于四个主要类别的最高风险评级：网络安全、生物威胁、劝说和模型自主性。除了劝说类别外，其他类别的风险均被评估为低风险。

在 GPT-4o 发布之前，OpenAI 使用了一组外部红队成员，即试图发现系统弱点的安全专家，来识别模型的关键风险。这些专家检查了 GPT-4o 可能生成未经授权的声音克隆、色情和暴力内容或复制的受版权保护的音频片段的风险。系统卡包括由内部团队创建的准备评估，以及在 OpenAI 网站上列出的外部测试人员，如模型评估和威胁研究（METR）和 Apollo Research，这些团队为 AI 系统构建评估。

公司一直在应对来自其员工和州参议员的批评，质疑其安全标准。就在 GPT-4o 系统卡发布前几分钟，参议员 Elizabeth Warren（D-MA）和众议员 Lori Trahan（D-MA）的一封公开信，要求回答 OpenAI 如何处理举报人和安全审查的问题。信中列出了许多公开指出的安全问题，包括 2023 年因董事会担忧而短暂罢免 CEO Sam Altman，以及一位安全高管的离职。

此外，公司在美国总统选举前夕发布了一款功能强大的多模态模型。尽管 OpenAI 希望强调公司正在测试现实世界的场景以防止滥用，但模型意外传播错误信息或被恶意行为者劫持的潜在风险显而易见。公众呼吁 OpenAI 在模型训练数据和安全测试方面更加透明。

在加利福尼亚州，州参议员 Scott Wiener 正在推动一项法案，旨在监管大型语言模型，包括如果 AI 被用于有害方式，公司将承担法律责任的限制。如果该法案通过，OpenAI 的前沿模型在向公众开放之前必须符合州规定的风险评估。

尽管有外部红队成员和测试人员的参与，GPT-4o 系统卡的评估仍然依赖于 OpenAI 的自我评估。

2024 年 7 月 19 日，OpenAI 发布了 GPT-4o mini，这是其旗舰 GPT-4o 模型的较小版本。GPT-4o mini 在成本上显著进步，每百万输入 Token 仅需 15 美分，每百万输出 Token 60 美分，比 GPT-3.5 Turbo 便宜 60% 以上。在多项基准测试中，GPT-4o mini 的表现均优于 GPT-3.5 Turbo 和同类小型模型。例如，在 MMLU 测试中得分 82%，高于 Gemini Flash 的 77.9% 和 Claude Haiku 的 73.8%。在编程能力测试 HumanEval 上，GPT-4o mini 得分 87.2%。

GPT-4o mini 是 OpenAI 第一个应用 “指令层次方法” 的模型，这一方法有助于提高模型抵抗越狱、提示注入和系统提示提取的能力。指令层次方法的核心是建立一个明确的指令优先级结构，从高到低依次为：系统消息、用户消息、图像或音频中的指令，以及工具（如 Browsing）返回的文本。研究显示，应用指令层次方法的模型在多项安全测试中表现显著提升。