AI 早知道：谷歌 DeepMind 转型商业化；Waabi 完成 2 亿美元融资；Meta Fair 发布四款 AI 模型

谷歌 DeepMind 合并 AI 实验室，转型产品化引发热议

谷歌旗下的 DeepMind 决定将其两个 AI 实验室合并，专注于开发商业服务。这一转变可能会影响 DeepMind 在基础研究领域的长期优势。网友认为，从研发到产品化的转型需要不同的团队结构和文化，可能导致资源浪费和员工士气低落。然而，也有人相信这可以加速 AI 技术的产品化，提升市场竞争力。谷歌在研发方面曾取得重大突破，但在产品化上屡屡失利，而 OpenAI 等竞争对手则成功将研究成果转化为流行产品。

Waabi 完成 2 亿美元 B 轮融资，计划 2025 年部署无人驾驶卡车

无人驾驶卡车公司 Waabi 宣布完成 2 亿美元 B 轮融资，由 Uber 和 Khosla Ventures 领投，战略投资者包括英伟达、沃尔沃集团风险投资公司、保时捷汽车控股公司、斯堪尼亚投资公司和英卡投资公司。其他财务投资者包括 HarbourVest Partners、G2 Venture Partners、BDC Capital 的 Thrive Venture Fund、Export Development Canada、Radical Ventures 和 Incharge Capital。Waabi 计划于 2025 年部署完全无人驾驶、生成式人工智能驱动的自动驾驶卡车。

Meta FAIR 发布四款新 AI 模型及研究成果，推动开放科学发展

Meta FAIR 宣布推出四款新 AI 模型和额外的研究成果，以促进社区创新和负责任的 AI 发展。这些模型包括支持混合模态输入和文本输出的 Meta Chameleon7B 和 34B 语言模型、用于代码补全的 Meta Multi-Token Prediction 预训练语言模型、能够生成音乐的 Meta JASCO 文本生成模型以及专为检测 AI 生成语音设计的 Meta AudioSeal 音频水印模型。此外，Meta FAIR 还发布了用于衡量和改进 AI 系统中地理和文化偏好及多样性的研究、数据和代码。Meta FAIR 为 Meta 首席科学家杨立昆带领的团队，致力于通过开放科学为所有人创造机会。

Apple Notes 在 iOS 18 和 macOS Sequoia 中新增实时音频转录功能

据 9to5Mac 报道，Apple Notes 在最新的 iOS 18 和 macOS Sequoia 系统中引入了实时音频转录功能。该功能允许用户在记录笔记时自动将音频内容转录为文本，极大地提升了记录效率和准确性。用户只需在 Apple Notes 中开启音频转录功能，即可实时将语音内容转换为文字，方便后续查阅和编辑。这一新增功能为用户提供了更便捷的笔记记录方式，进一步增强了 Apple Notes 的实用性。

谷歌或将开源 27B 参数的 Gemma 模型

据悉，谷歌可能正在准备开源其 27B 参数的 Gemma 模型。这一举措将为开发者和研究人员提供更多的资源和工具，进一步推动 AI 技术的发展和应用。谷歌 AI 团队一直致力于通过开源项目促进 AI 技术的普及和进步。

苹果计划分批上线 “Apple Intelligence” 功能

据知名科技记者马克・古尔曼（Mark Gurman）最新爆料，苹果将在 2024 年秋季推出 “Apple Intelligence”，但不会包含所有在 WWDC24 上展示的功能。第一批功能将以 “预览版” 形式上线，包括全新的 Siri 用户界面和 “键入式 Siri” 功能，允许用户通过键盘与 Siri 交互。其他功能如 Siri 理解设备内容、语义索引、AI 控制设备和屏幕感知等，将在 2025 年上线。古尔曼指出，苹果选择花更多时间解决技术问题并完善多语言支持，显示了对产品体验的重视。

Perplexity AI 与软银合作进军日本市场

Perplexity AI 宣布与软银合作，积极开拓日本市场。Perplexity 将与软银旗下的移动运营商 Y!mobile 和低成本移动网络 LINEMO 合作，从本月起向用户提供为期一年的免费 Perplexity Pro 订阅服务。在日本，Perplexity Pro 的 iOS 版本定价为每月 3000 日元或每年 30000 日元，网页版定价为每月 20 美元或每年 200 美元。今年 4 月，总部位于旧金山的 Perplexity 完成了 6270 万美元的融资，估值达到 10 亿美元。据 TechCrunch 报道，该公司目前正在筹集至少 2.5 亿美元的资金，估值区间为 25 亿到 30 亿美元。其投资者包括贝佐斯探险公司、IVP、NEA、红杉资本、英伟达和 Databricks。

ChatGPT 取代 60 名员工，Miller 成为唯一编辑

BBC 报道，Miller 原本领导一个由 60 多名作家和编辑组成的团队，为技术公司撰写和编辑文章。随着公司引入 ChatGPT，团队的职责逐渐转变为修改 AI 生成的文章。最终，公司决定让 ChatGPT 编写完整的文章，大部分团队成员被解雇，只剩下 Miller 负责编辑 AI 生成的文本。到 2024 年，Miller 成为唯一的员工，每天从事单调重复的编辑工作。这一经历反映了 AI 在多个行业中取代人类工作的趋势。

谷歌开发 PH-LLM 模型利用可穿戴设备数据提供个性化健康建议

谷歌研究团队基于 Gemini 开发了 PH-LLM 模型，旨在利用可穿戴设备收集的健康数据提供个性化的健康和保健信息。PH-LLM 能够处理和理解来自手机或智能手表等设备的数据，如步数、心跳和睡眠时间，通过分析这些数据生成个性化的健康见解和建议。模型结合健康领域知识，解释数据的意义，并通过专家分析和自我报告结果进行微调，确保建议的准确性和专业性。

微软发布 Glyph-ByT5-v2 文本编码器，支持多语言图像生成

微软开源了 Glyph-ByT5-v2 文本编码器，支持使用十多种语言生成图片，并搭配了一个使用该编码器的 SDXL 模型，可以直接生成中文海报和内容。该项目创建了一个高质量的多语言字形文本和图形设计数据集，包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对，覆盖另外九种语言。此外，还构建了一个多语言视觉段落基准数据集，包括 1000 个提示，每种语言 100 个，用于评估多语言视觉拼写准确性。采用最新的步进感知偏好学习方法，提高了视觉美学质量。

ElevenLabs 推出文本转声音特效 API

ElevenLabs 发布了一款新的文本转声音特效 API，用户可以利用该 API 将文本转换为声音特效。已有开发者使用该 API 构建了一个视频到声音的应用程序，该应用程序免费在线使用并且完全开源。ElevenLabs 按每次生成 100 个字符收费，并在设置持续时间时按每秒生成 25 个字符收费。该工具通过从视频中提取帧图像并使用 GPT-4 生成自定义文本音效提示，再通过 ElevenLabs 的 API 创建音效，最终在客户端合并视频和音频。