Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
参议员公开信质疑 OpenAI 安全标准,GPT-4o 面临哪些挑战?

参议员公开信质疑 OpenAI 安全标准,GPT-4o 面临哪些挑战?

2024-08-09

2024 年 8 月 9 日,OpenAI 发布了其最新的 GPT-4o 系统卡,这是一份详细的研究文件,概述了公司在发布最新模型之前进行的安全措施和风险评估。根据 OpenAI 的框架,研究人员发现 GPT-4o 的总体风险为 “中等”。这一评估是基于四个主要类别的最高风险评级:网络安全、生物威胁、劝说和模型自主性。除了劝说类别外,其他类别的风险均被评估为低风险。

在 GPT-4o 发布之前,OpenAI 使用了一组外部红队成员,即试图发现系统弱点的安全专家,来识别模型的关键风险。这些专家检查了 GPT-4o 可能生成未经授权的声音克隆、色情和暴力内容或复制的受版权保护的音频片段的风险。系统卡包括由内部团队创建的准备评估,以及在 OpenAI 网站上列出的外部测试人员,如模型评估和威胁研究(METR)和 Apollo Research,这些团队为 AI 系统构建评估。

公司一直在应对来自其员工和州参议员的批评,质疑其安全标准。就在 GPT-4o 系统卡发布前几分钟,参议员 Elizabeth Warren(D-MA)和众议员 Lori Trahan(D-MA)的一封公开信,要求回答 OpenAI 如何处理举报人和安全审查的问题。信中列出了许多公开指出的安全问题,包括 2023 年因董事会担忧而短暂罢免 CEO Sam Altman,以及一位安全高管的离职。

此外,公司在美国总统选举前夕发布了一款功能强大的多模态模型。尽管 OpenAI 希望强调公司正在测试现实世界的场景以防止滥用,但模型意外传播错误信息或被恶意行为者劫持的潜在风险显而易见。公众呼吁 OpenAI 在模型训练数据和安全测试方面更加透明。

在加利福尼亚州,州参议员 Scott Wiener 正在推动一项法案,旨在监管大型语言模型,包括如果 AI 被用于有害方式,公司将承担法律责任的限制。如果该法案通过,OpenAI 的前沿模型在向公众开放之前必须符合州规定的风险评估。

尽管有外部红队成员和测试人员的参与,GPT-4o 系统卡的评估仍然依赖于 OpenAI 的自我评估。

2024 年 7 月 19 日,OpenAI 发布了 GPT-4o mini,这是其旗舰 GPT-4o 模型的较小版本。GPT-4o mini 在成本上显著进步,每百万输入 Token 仅需 15 美分,每百万输出 Token 60 美分,比 GPT-3.5 Turbo 便宜 60% 以上。在多项基准测试中,GPT-4o mini 的表现均优于 GPT-3.5 Turbo 和同类小型模型。例如,在 MMLU 测试中得分 82%,高于 Gemini Flash 的 77.9% 和 Claude Haiku 的 73.8%。在编程能力测试 HumanEval 上,GPT-4o mini 得分 87.2%。

GPT-4o mini 是 OpenAI 第一个应用 “指令层次方法” 的模型,这一方法有助于提高模型抵抗越狱、提示注入和系统提示提取的能力。指令层次方法的核心是建立一个明确的指令优先级结构,从高到低依次为:系统消息、用户消息、图像或音频中的指令,以及工具(如 Browsing)返回的文本。研究显示,应用指令层次方法的模型在多项安全测试中表现显著提升。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5