Anthropic 推出了 Claude 3.5 版本,包含 Claude 3.5 Sonnet 和 Claude 3.5 Haiku 模型的更新。本次版本升级包括增强编程能力和 计算机使用 功能。新功能允许 Claude 模拟人类操作计算机,为用户提供更灵活的自动化工具。
Claude 3.5 Sonnet 在多个基准测试中表现不俗。在 SWE-bench Verified 测试中的得分从 33.4% 提升至 49.0%,同时在 TAU-bench 的多领域测试中取得改进。在零售和航空领域也展现了提高。用户反馈显示,其在编码推理能力上提高了 10%。
Claude 3.5 Haiku 与前代相比,继续保持速度和成本的优势,并提供低延迟和改进的指令执行能力。
Anthropic 还与美国 AI 安全研究所和英国安全研究所合作,测试并强调 AI 安全的重要性,引发了社交媒体上关于技术伦理与安全性的讨论。