AI 早知道：Sam 透露 GPT-5 仍在开发；英特尔展示首个全光计算互连芯片；ChatGPT 语音助手推迟上线至七月底

企业动态

英特尔展示业内首个全光计算互连（OCI）芯片

英特尔在 2024 年光纤通信大会上展示了业内首个全光计算互连（OCI）芯片。该芯片采用硅光子学技术，将硅集成电路和半导体激光器结合，显著提升了数据传输速度和距离，同时减少了电力消耗。硅光子学被认为是扩展计算机处理器间通信带宽的未来方向，特别适合 AI 和高性能计算（HPC）基础设施的需求。英特尔的 OCI 芯片支持每根光纤每秒 32GB 的数据传输，覆盖 100 米的距离，远超现有电气 I/O 互连的能力。英特尔在硅光子学领域已有超过 25 年的研究基础，是首家成功开发并大规模生产硅光子产品的公司。

OpenAI 与礼来公司合作开发新型抗菌药物

美国制药巨头礼来公司宣布将与 OpenAI 合作，利用生成式人工智能开发用于治疗耐药细菌的抗菌药物。美国每年发生超过 280 万例抗菌药物耐药感染，世界卫生组织和卫生行业专家对此表示担忧，认为当前的新疗法数量稀少且不足以对抗超级细菌。抗菌药物耐药性使感染更难治疗，并增加疾病传播、病情加重和死亡的风险。礼来公司此前已向 AMR Action 基金提供 1 亿美元，目标是在 2030 年前为患者生产 2 至 4 种新抗生素，此次合作是公司兑现承诺的一部分。

亚马逊研发新聊天机器人 Metis，挑战 OpenAI 的 ChatGPT

亚马逊正在开发一款名为 “Metis” 的人工智能聊天机器人，以与 OpenAI 的 ChatGPT 竞争。Metis 目前正在内部测试，预计将于 9 月份发布。该机器人基于亚马逊内部最强大的人工智能模型 Olympus 研发，支持多种模式，可以用对话方式回答文本和图像查询，并提供源链接和后续查询建议。与现有聊天机器人不同，Metis 将像搜索引擎一样提供最新答案。亚马逊还计划通过新的订阅服务对 Alexa 进行人工智能改造。

阿里前端第一人玉伯入局 AI 原生在线办公创业

被誉为阿里前端第一人的玉伯宣布进军大模型应用创业，专注于 AI 原生在线办公领域，目标是开发能读写文档、整理资料的多模态平台。其创业公司思维天空受到资本市场的高度关注，首轮估值已过亿。玉伯的团队中还有多位阿里前同事，共同推动大模型应用的发展。

人物与发言

Sam Altman 透露 GPT-5 仍在开发中，预计将显著超越 GPT-4

OpenAI CEO Sam Altman 在最新的阿斯彭创意节（Aspen Ideas Festival）采访中表示，GPT-5 仍在开发中，尽管尚未完成，但他预计该模型将在多个任务上显著超越 GPT-4。Altman 强调，GPT-5 将在广泛的任务中表现更好，带来更大的技术进步。

模型与应用

OpenAI 推迟 ChatGPT 语音助手上线至七月底

OpenAI 宣布原计划在六月底推出的 ChatGPT 语音助手功能将推迟至七月底。公司表示，此次推迟是为了确保该功能能安全、有效地处理数百万用户的请求。尽管部分功能会较发布会展示时有所限制，但新功能承诺将带来更快的响应速度和强大的图像识别能力，使 ChatGPT 成为一个更有活力的对话伙伴。分析认为，这次推迟对 OpenAI 来说可能是一个小挫折，因为公司一直在努力保持在竞争激烈的 AI 领域的领先地位。

Open-Sora 1.2 版本提升视频生成质量与效率

Open-Sora 1.2 版本通过引入视频压缩网络、修正流训练和多阶段训练等改进，大大提升了视频生成的效率和质量。新版本支持从低到高多种分辨率和长度的视频生成，最长可达 16 秒，最高分辨率为 720p。视频压缩网络避免了帧提取，修正流训练加速了训练过程，多阶段训练利用不同质量的数据集进行训练。此外，模型条件设定和新的评估指标进一步提高了视频生成的质量和可靠性。通过这些改进，Open-Sora 1.2 为视频内容创作提供了更加高效和便捷的解决方案。

谷歌推出 Gemini AI 侧边栏，提升办公效率

谷歌推出了适用于多种办公程序的 Gemini 侧边栏，并在移动版 Gmail 中引入了 Gemini 按钮。这些功能目前仅对会员开放，涵盖文档内容完善、信息总结、改进建议、表格创建、公式生成、幻灯片自定义图像、云端硬盘多文档总结等。此外，Gmail 中还支持总结电子邮件线索、回复建议、起草新邮件和信息查找。下个月，Gemini 将推出根据上下文智能回复的功能，以及 Gmail Q&A 功能，帮助用户快速查找邮件中的信息。

Claude 推出 “Projects” 功能，支持个性化项目机器人

Claude 推出了名为 “Projects” 的新功能，允许用户创建个性化的项目机器人。与 ChatGPT 的 GPTs 类似，用户可以上传项目的所有相关资料文档，作为知识库。通过设定提示词指令，用户可以要求机器人按照特定标准和风格输出内容。此外，Projects 还支持团队分享和协作对话功能。

ElevenLabs 推出 AI 语音阅读器，支持多种文本格式

ElevenLabs 推出了全新的 ElevenLabs Reader 语音阅读器，用户可以使用高质量的 AI 语音随时随地收听文章、PDF、ePub 或任何文本。目前，该应用程序已在美国、英国和加拿大的 iOS 用户中上线，未来将添加多语言支持并在全球范围内推出。Android 版本也将在稍后推出。

字节跳动推出高质量文本到语音模型 Seed-TTS

字节跳动开发了一款名为 Seed-TTS 的文本到语音（TTS）模型，该模型能够生成高质量、几乎无法与人类声音区分的语音。Seed-TTS 无需训练，只需简短的语音片段即可克隆生成高度自然且富有表现力的语音，适用于读小说、配音等任务。

字节跳动发布豆包 MarsCode，支持云端编码开发

字节跳动推出了豆包 MarsCode 编程助手，支持多种编程语言和主流 IDE。该工具能够在开发过程中提供代码编写建议、代码补全、Bug 修复和单元测试生成等功能，大幅提高开发效率。此外，豆包 MarsCode 还包括一个 AI 原生的云端集成开发环境（IDE），无需配置复杂的开发环境，用户可以直接在浏览器中进行编程和调试。

钉钉接入六家千亿级大模型，支持多模型切换

6 月 26 日，钉钉总裁叶军宣布，MiniMax、月之暗面、智谱 AI、猎户星空、零一万物和百川智能六家千亿级大模型厂商已接入钉钉，用户可以通过钉钉直接切换并使用这些大模型产品。钉钉将与大模型生态伙伴展开合作，为客户定制智能化解决方案，并对所有大模型厂商开放，构建国内最开放的 AI 生态。

Yann LeCun 介绍 Cambrian-1：专注视觉的多模态 LLM 开源项目

知名 AI 科学家杨立昆（Yann LeCun）宣布了由纽约大学计算智能、学习、视觉与机器人团队（CILVR）领导的 Cambrian-1 项目。该项目专注于视觉中心的多模态大语言模型（LLM），并强调开源数据集、开源模型和开源代码。Cambrian-1 通过广泛的比较研究，包括视觉编码器、连接器设计、指令调优数据和调优方法，推出了新的视觉中心基准测试 CV-Bench。LeCun 认为。

伦敦帝国理工学院和剑桥大学开发高准确率癌症早筛模型

伦敦帝国理工学院和剑桥大学的研究团队提出了一种可解释的机器学习模型，利用 DNA 甲基化数据对 13 种癌症类型及非癌症组织样本进行分类，准确率高达 98.2%。该模型识别的特征进一步开发了 EMmethylNET，一个由 XGBoost 模型组成的强大模型，为深度神经网络提供信息，能够泛化应用到独立的数据集。研究还证明了分类器检测到的甲基化相关基因组位点与癌症相关基因、通路和网络相关，为癌症发生的表观基因组调控提供了更多专业解释。

中国科学技术大学、哈尔滨工业大学与度小满推出 STAR 模型，2.9 秒生成高质量图像

中国科学技术大学、哈尔滨工业大学和度小满联合推出的通用文生图模型 STAR，仅需 2.9 秒即可生成高质量图像，超越了包括 SDXL 在内的多种扩散模型。STAR 模型在图像生成的真实度、图文一致性和人类偏好上均表现出色。

AI 早知道：Etched 获 1.2 亿美元融资；多家唱片公司起诉 Suno；Anthropic 推出新功能 Projects

AI 早知道：苹果与 Meta 会谈合作；微软 AI CEO 预计 GPT-6 两年内推出