企业动态
苹果首款搭载 Apple Intelligence 的家用设备将是桌面机器人
据 9to5Mac 报道,知名科技记者马克・古尔曼(Mark Gurman)透露,苹果计划推出其首款搭载 Apple Intelligence 功能的家用设备 —— 桌面机器人。这款桌面机器人不仅能自主导航,还具备家务处理能力。
- 借助传感器和导航技术,桌面机器人可以感知周围环境,自动避开障碍物,找到路径。机器人可以在家中穿梭,完成各种任务。
- 桌面机器人在家务处理上能完成简单的清洁工作,比如扫地和擦拭桌面,还能帮助整理物品。
- 桌面机器人配备了类似 iPad 的显示屏和机械臂。显示屏可以用于视频通话、播放多媒体内容,还能显示各种信息和通知。机械臂则能够模拟人类的动作,比如点头、摇头,使得与机器人的互动更加自然。在 FaceTime 通话时,机器人可以锁定人群中的个别用户。
Apple Intelligence 是苹果推出的个人智能系统,具备语言理解和图像处理能力。它能够跨应用执行任务,简化用户的日常操作。在桌面机器人上,Apple Intelligence 将提供智能化的家务处理和互动体验。机器人可以通过语音指令完成任务,理解用户的需求并做出反应。此外,图像处理功能使机器人能够识别家庭成员,进行个性化的服务和互动。
Apple Intelligence 不仅限于桌面机器人,还将在 iPhone、iPad 和 Mac 等设备上应用,实现跨设备的协同工作。用户可以通过 iPhone 或 iPad 远程控制机器人,查看其工作状态或下达指令。同时,机器人也能与其他 Apple 设备共享信息和任务,提升整体的智能家居体验。
目前,桌面机器人项目已经取得了一些进展。古尔曼提到,这款设备是苹果在家用机器人领域进展较快的项目,尽管还在早期阶段。
苹果 Siri 重大升级预计明年推出
据 9to5Mac 报道,苹果计划在明年推出 Siri 的重大升级。尽管在 WWDC 2024 上展示了许多新功能,但这些功能的全面上线仍需时间。苹果将分批推出这些功能,首批功能将在今年秋季以 “预览版” 形式上线,包括全新的 Siri 用户界面和 “键入式 Siri” 功能。其他功能如 Siri 理解设备内容、语义索引、AI 控制设备和屏幕感知等,将在 2025 年上线。苹果选择花更多时间解决技术问题并完善多语言支持,显示了对产品体验的重视。
OpenAI 团队部署新版本 ChatGPT,隐藏实验功能
OpenAI 团队推出了一个新的 ChatGPT 版本,将功能门名称替换为数字,以“隐藏”新的实验功能。Tibor Blaho 指出,最近 OpenAI 团队的部署频率有所下降,可能是因为团队正在度假。他通过跟踪每天的 ChatGPT 部署情况发现,最近的新版本和新子域名数量明显减少。
Odyssey 公司获 900 万美元融资,致力于打造好莱坞级别的视觉 AI
Odyssey 公司由 Cruise 前产品副总裁 Oliver Cameron 和 Wayve 前技术副总裁 Jeff Hawke 创立,旨在提供创作电影、电视节目和视频游戏的更好方式。公司研究人员来自 Cruise、Wayve、Waymo、特斯拉和 Meta 等知名企业。Odyssey 正在训练四个生成模型,以实现对视觉故事核心层的完全控制,包括高质量的几何形状、逼真的材料、令人惊叹的照明和可控运动。这些模型结合在一起,能够生成高质量的视频或场景,并与好莱坞及其他地区的现有工作流相结合。公司宣布获得 900 万美元的投资,投资者包括谷歌风险投资公司、DCVC、Air Street Capital、Elad Gil、Garry Tan、Jeff Dean、Kyle Vogt、Guillermo Rauch 和 Soumith Chintala。
OpenAI 宣布封锁中国企业使用其服务,但微软 Azure 仍可在中国提供技术
上个月,OpenAI 宣布将对中国企业使用其服务进行封锁。然而,据 The Information 报道,OpenAI 的技术仍可通过微软的 Azure 在中国使用。这一举措显示了 OpenAI 在技术管控上的复杂性,同时也突显了微软在中国市场的影响力。OpenAI 是一家致力于开发安全、有益于全人类的通用 AI 的美国非营利 AI 研究公司。
人物与发言
Julian Salazar 点评 GPT-4o 语音模式与 Moshi 的差异
Google DeepMind 的高级研究科学家 Julian Salazar 对 GPT-4o 语音模式和 Kyutai 的 Moshi 进行了点评。他指出,GPT-4o 采用的是回合制模型,而 Moshi 则是全双工模型。Salazar 认为,GPT-4o 的语音模式更注重语音到语音的序列到序列方案,而 Moshi 则强调多流处理,能够随时倾听和说话。尽管两者都是端到端模型,但在处理插嘴和中断方面存在显著差异。Salazar 还提到,GPT-4o 的服务和扩展更适合预填充和解码的范式,而 Moshi 则在模型级别上实现了全双工。
论文与研究
苹果多模态大语言模型对齐方法显著减少幻觉现象
苹果研究团队提出了一种新的多模态大语言模型(MLLMs)对齐方法,通过结合离线(例如 DPO)和在线(例如 Online-DPO)方法,显著提升了模型的表现。新的对齐方法不仅减少了模型的幻觉现象,还提高了对图像信息的响应准确性。特别是他们引入了一种名为“偏差驱动幻觉采样(Bias-Driven Hallucination Sampling, BDHS)”的新方法,该方法可以限制图像访问以诱发语言模型偏差并触发幻觉,无需额外的注释或外部模型,仅使用自监督数据即可实现强大的性能。
微软开源 GraphRAG 技术,提升语言模型处理复杂语义问题能力
微软正式开源了 GraphRAG 技术,通过结合知识图谱和图机器学习,显著增强了大语言模型在处理私有数据和复杂语义问题时的性能。GraphRAG 能够跨大量信息连接信息,回答基于关键字和向量搜索机制难以回答的问题,如跨多个文档的全局性问题和主题性问题。与传统的 RAG 方法不同,GraphRAG 利用知识图谱在处理复杂信息时提供了显著的问答性能改进。详细介绍和教程可在 GitHub 和官方文档中找到。
Tenyx 研究几何视角提升大语言模型推理能力
总部位于加利福尼亚州的 Tenyx 公司最近发表了一篇论文,探讨了通过几何视角增强大语言模型(LLM)推理能力的方法。研究团队发现,LLM 的表达能力与其自我关注(self-attention)图的密度之间存在联系,这些图的密度定义了多层感知机(MLP)块输入的内在维度。论文指出,现代神经网络中的非线性层通过区域相关的仿射映射生成输出,这种划分与神经网络的逼近能力和 LLM 的推理能力直接相关。通过增加内在维度,可以提高对数学应用题的解答能力。研究人员提供了经验证据,将这一几何框架与近期 LLM 推理技巧的研究进展联系起来,并讨论了如何通过 AlphaGeometry 风格的综合基准评估 LLM 的推理能力。
模型与应用
微软推出 MInference 1.0,实现 LLM 预填充速度提升 10 倍
微软发布了 MInference 1.0,通过利用 LLM 注意力机制的动态稀疏性,大幅提升长上下文 LLM 的预填充速度。该方法在保持准确性的同时,将 A100 上的预填充速度提高了 10 倍。MInference 1.0 首先离线确定每个头部的稀疏模式,然后在线近似稀疏索引,并使用最佳自定义内核动态计算注意力。该技术已适配市场上几乎所有开源长上下文 LLM,包括 LLaMA-3(8B)、GLM-4(9B)、Yi(9B)、Phi-3(mini-128k)和 Qwen2(7B)。
百度网盘登陆苹果 Vision Pro
随着苹果 Vision Pro 国行版的上市,百度网盘正式登陆该平台,成为首个支持 visionOS 的 AI 云存储应用。百度网盘 VR 版提供了全新的虚拟体验,用户可以在一个虚拟的客厅中,覆盖休闲、娱乐、学习、工作等全生活场景。通过 4K 全景技术,用户可以观看高清电影、学习视频,和专家面对面交流,获取前沿的行业信息,甚至是个人珍贵的 “人生瞬间” 视频。
快手推出 LivePortrait 模型,实现高质量肖像动画生成
快手联合中国科学院大学和复旦大学推出了最新的动画模型 LivePortrait。该模型能够在单一形象上进行动作重演,并支持不同形象间的交叉动作重演,适用于各种艺术风格和尺寸的静态图像,包括写实、油画、雕塑和 3D 渲染。LivePortrait 采用基于隐式关键点框架的策略,在计算效率和可控性之间实现了平衡。通过扩展训练数据集和设计高效的拼接模块,模型在生成质量和泛化能力上得到了显著提升。在 RTX 4090 GPU 上,生成速度缩短至每帧 12.8 毫秒,显著优于基于扩散的方法。
北京大学千问团队推出数学专用版 CriticGPT,提升大模型数学能力
北京大学联合千问团队推出了一款名为 Math-Minos 的数学专用版 CriticGPT,通过在数学问题中故意设置错误并进行详细标注,训练出能够 debug 的模型。这种方法不仅在代码中有效,也能帮助语言模型解决数学问题。在无需训练的设置下,验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。