AI 早知道：华为发布盘古大模型 5.0；OpenAI 收购 Rockset；HeyGen 获 6000 万美元融资

企业动态

OpenAI 收购 Rockset 以增强实时数据分析能力

OpenAI 宣布收购领先的实时分析数据库公司 Rockset。Rockset 以其世界级的数据索引和查询能力著称，此次收购将使 OpenAI 能够将 Rockset 的技术整合到其产品中，帮助企业将数据转化为可操作的情报。OpenAI 总裁兼联合创始人 Greg Brockman 表示，这一举措不仅带来了先进的技术，更引入了一支优秀的团队。

HeyGen 获 6000 万美元 A 轮融资，加速 AI 视频生成业务发展

HeyGen 是一家专注于用 AI 技术生成视频的公司，用户只需输入脚本，即可在几分钟内生成用于营销、沟通、销售、学习等的视频。HeyGen 还支持使用 AI 语音和口型同步为视频添加 175 种语言和地方方言，提供更加沉浸的体验。公司在短短一年多的时间里，年度经常性收入（ARR）从 100 万美元增长到超过 3500 万美元，并且自第二季度以来一直盈利。HeyGen 已协助了全球 4 万多名付费企业客户，包括麦当劳、日本横须贺市市长、慧咨环球和阿根廷总统米莱等。

台积电探索新型 AI 芯片封装技术，提升生产效率

据《日经亚洲》报道，台积电正在研发一种新型 AI 芯片封装技术，采用矩形面状基板替代传统的圆形基板。此举旨在增加单个晶圆中的芯片数量，提高生产效率，以满足日益增长的 AI 计算需求。虽然该技术仍处于早期阶段，但被视为台积电的重要技术发展方向。知情人士透露，实验中的矩形基板尺寸为 510mm 乘 515mm，其可使用面积是目前圆形晶圆的三倍多。

人物与发言

安德烈・卡帕斯建议大型语言模型界面增加自动验证功能

安德烈・卡帕斯提出了一项关于大型语言模型（LLM）界面的改进建议。他希望在 LLM 界面中增加一个内置的 UI/UX 功能，能够自动提供原始材料或可信来源，并突出显示相关部分，以验证生成内容的准确性。卡帕斯指出，他通常会手动查找和验证 LLM 推荐的命令和参数，以确保其正确性和理解其功能。他认为，这样的自动验证功能将大大提升用户体验和信任度。

杨立昆建议学术研究者探索新 AI 架构

在最近的科学研讨会上，Meta 首席 AI 科学家杨立昆强调，学生和学术研究者应避免专注于大语言模型，因为已有大量工程师和资源投入其中。他建议研究者们分析现有大语言模型的能力和局限性，同时鼓励他们提出新的 AI 架构和创意，即使是针对小问题的解决方案，也可能带来更大的影响和乐趣。

论文与研究

CVPR 2024 评选出最佳论文，获奖者为谷歌和 Meta

2024年的计算机视觉与模式识别会议（CVPR 2024）于6月16日至21日在美国西雅图举行，吸引了全球顶尖的学者和企业代表。此次会议评选出了一系列最佳论文，其中包括谷歌AI的“生成图像动态”（Generative Image Dynamics）和Meta AI的“文本到图像生成的丰富人类反馈”（Rich Human Feedback for Text-to-Image Generation）。这些论文代表了当前计算机视觉领域的前沿技术和最新研究趋势，展示了在动态建模和人机交互方面的重要突破。

模型与应用

华为发布 Harmony Intelligence，华为小艺升级为系统级智能体

在一年一度的华为开发者大会上，余承东首次揭示了 “鸿蒙原生智能” Harmony Intelligence 的革新。基于盘古大模型 5.0，华为小艺从 AI 助手升级为系统级智能体，掌握了万亿级 Tokens 知识量，支持 23 类 TOP 场景，任务成功率达 90%。小艺现在可以实现跨多个应用的任务执行，并能处理第三方 APP 上的文字图表信息。HarmonyOS NEXT 已启动 Beta 升级，正式版的 AI 功能将更加突出。

华为云发布盘古大模型 5.0，升级多模态和强思维能力

在今天的华为开发者大会上，华为云推出了盘古大模型 5.0，重点升级了多模态、全系列和强思维三大核心能力。新版本能够生成符合物理规律的自动驾驶视频，适配从十亿级到万亿级的多个参数规格，满足不同场景需求。此外，结合思维链技术和策略搜索，盘古大模型 5.0 可帮助智能体完成复杂的任务规划。

OpenAI 推出 ChatGPT Edu，助力大学教育

OpenAI 正在推出 ChatGPT Edu，这是一个专为大学设计的新版本 ChatGPT。ChatGPT Edu 旨在帮助完成辅导、简历审查、撰写资助申请和评分等任务。该版本还包括数据分析、网页浏览和文档摘要等高级功能，旨在提升教育工作者和学生的效率和体验。

微软发布全新开源视觉模型 Florence-2，支持多种视觉任务

微软推出了全新的开源视觉模型 Florence-2，能够执行超过 10 种不同的视觉任务，包括图像字幕生成、对象检测、图像区域关联和分割等。Florence-2 系列包括 Florence-2-base 和 Florence-2-large，参数分别为 0.23 亿和 0.77 亿。尽管模型较小，但性能不逊色，适用于各种资源受限的移动端设备。Florence-2 采用统一的、基于提示的表示方式，通过简单的文本提示即可生成所需的文本形式结果，简化了多任务处理的复杂性，提高了模型的通用性和适应性。

腾讯开源混元 DiT 模型训练代码及 ControlNet 插件

腾讯宣布开源其混元文生图大模型（混元 DiT 模型）的训练代码，并发布了 LoRA 小规模数据集训练方案和可控制插件 ControlNet。用户可以对混元 DiT 模型进行微调或修改，创造个性化模型。作为中文原生模型，混元 DiT 支持中英文双语输入及理解，已在 Hugging Face 和 Github 平台上发布。LoRA 技术允许用户利用少量数据训练特定风格的模型，而 ControlNet 插件则提供了通过额外条件控制图像生成的功能。混元 DiT 模型已广泛应用于素材创作、商品合成和游戏出图等业务场景。

阿里云推出基于通义大模型的 AI 程序员

阿里云发布了一款基于通义大模型的 AI 程序员，能够自主完成从需求理解到代码编写、调试和修改的全流程开发任务。与传统的代码续写工具不同，这款 AI 程序员可以根据用户需求独立完成任务，并在多轮交互中进行修改和优化。官方介绍，该 AI 程序员由多个智能体组成，每个智能体分别负责不同的软件开发任务，如需求理解、任务拆解、代码编写、测试、问题修复和提交发布。通过这一创新，阿里云展示了其在 AI 技术领域的最新成果。

可灵图推出生视频模式，支持生成最长 3 分钟视频

可灵图最新上线的生视频模式现已支持生成最长 3 分钟的视频。虽然其运动幅度较 Luma 低，但画面稳定性极高，崩坏情况极少。用户可以通过编写提示词来增加画面的运动幅度，提升视频效果。

月之暗面推出两款 AI 工具进军美国市场

月之暗面在成功开发人工智能聊天工具 Kimi 后，继续拓展美国市场，推出了人工智能角色扮演聊天应用 Ohai 和音乐视频生成器 Noisee。Ohai 允许用户与影视剧角色进行虚拟聊天，并预设故事情节；Noisee 则为用户喜欢的旋律生成 MV 视频。尽管中美关系紧张，中国的 AI 初创企业仍积极进入美国市场，以扩大海外市场份额和回避激烈的价格竞争。月之暗面年化收入增长超过一倍，估值即将达到 30 万美元，主要收入来自企业客户，并开放 API 接口，重视 ToC 业务，与开发者合作获得良好反馈。

环球音乐集团与 SoundLabs 合作推出歌手语音克隆模型

环球音乐集团与 AI 音乐初创公司 SoundLabs 合作，推出 MicDrop 工具，帮助歌手定制自己的语音克隆模型。歌手和艺术家们可以通过提供数据生成他们的语音模型，并自由控制这些模型的使用权。MicDrop 不仅能复制声音，还能将歌曲翻译成多种语言发行全球。这些语音克隆模型不会向公众开放。

松鼠 Ai 发布新一代多模态智适应教育大模型

松鼠 Ai 近日举行新品发布会，推出全新多模态智适应教育大模型。作为国内领先的科技创新型独角兽企业，松鼠 Ai 在发布会上展示了升级后的多模态智适应教育引擎，旨在构建更丰富、更完善的智适应学习生态系统。创始人栗浩洋表示，AI 技术的进步将推动教育硬件的升级重造。新一代智适应教育大模型通过优化深度智能教学体验和开创三大全新互动学习模块，拓展了学生的学习深度与宽度，覆盖人群延伸至 3-9 岁，满足不同年龄阶段的学习需求。

清华系独角兽瑞莱智慧发布 AI 造假检测工具 “尊嘟假嘟”

清华大学朱军教授与学生田天博士创立的瑞莱智慧（RealAI）推出了一款名为 “尊嘟假嘟”（RealBelieve）的 AI 造假检测工具。该工具面向个人用户，能够在网页和视频会议中实时检测图像、音频和视频的真伪，无需上传素材。基于深度学习技术，“尊嘟假嘟” 构建了多模态、多角度的 AIGC 检测技术体系，目前已开启内测招募。瑞莱智慧是一家专注于 AI 技术研发的初创公司。

中国科学技术大学与上海人工智能实验室发布百万级高质量视频数据集

中国科学技术大学和上海人工智能实验室组成的 ShareGPT4V 团队推出了一个涵盖 3000 小时高质量视频数据的新数据集，并登顶 HuggingFace 排行榜。该数据集配有高质量文字描述，显著提升了北京大学 Open-Sora-Plan 的视频生成质量。团队利用 GPT-4v 的视觉能力，生成了 4 万条（共 291 小时）带有标注的视频数据，并进一步扩展到 480 万条、近 3000 小时的视频描述数据。研究表明，详细高质量的视频 – 字幕数据对于视频理解和生成任务至关重要。

Cognosys AI 推出 Otto，简化用户工作流的表格界面

Cognosys AI 推出了新产品 Otto，其独特的表格界面取代了传统的聊天机器人方式，旨在简化用户的工作流。用户可以向 Otto 提供各种类型的数据，包括文档、网络研究和非结构化信息，Otto 能在几分钟内将其转化为可操作的洞察力。Cognosys AI 表示，Otto 能同时运行数百个 AI Agents，避免了聊天机器人在并行工作中的不足。此外，Otto 可以直接提取数据并将其放入表格中，方便随时进行分析。Otto 的基于表格的界面使得人工智能功能更加强大且易于使用。

Runway 推出 Gen-3 Alpha，实现文本提示生成高质量过渡视频

Runway 的 Gen-3 Alpha 通过精细的时间控制，允许用户仅使用文本提示生成场景内不可能的过渡和效果。该技术展示了出色的运镜和视频质量，但目前尚未开放使用。Runway 是一家专注于提供创意工具的公司，其技术在视频制作领域具有广泛应用前景。