企业动态
Agility Robotics 与 GXO Logistics 签署合作协议,推动人形机器人商业化
Agility Robotics 与全球最大的合同物流供应商 GXO Logistics Inc 签署了一项多年合作协议,标志着人形机器人在商业领域的重大突破。根据协议,最新型的 Digit 人形机器人将被部署到多种物流业务中,这是该领域内的首次正式商业部署,也是机器人即服务(RaaS)模式的首次应用。在康涅狄格州的 Spanx 工厂,GXO 已经部署了一队 Digit 机器人,通过 RaaS 模式运作。
Agility Robotics 成立于 2015 年,由俄勒冈州立大学的两位教授 Jonathan Hurst 和 Damion Shelton 共同创立。Agility Robotics 致力于研发双足机器人,旨在解决实际应用中的复杂问题,特别是在物流和仓储领域。Digit 机器人高 1.75 米,重 63.5 公斤,能够举起 15.8 公斤的重物,配备了可根据任务需求更换的模块化末端执行器。
特斯拉擎天柱机器人将亮相上海世界人工智能大会
特斯拉的擎天柱机器人 Optimus Gen 2 和赛博皮卡将亮相本周的上海世界人工智能大会。Optimus Gen 2 于 2023 年 12 月发布,在外观、行走能力、手部操作、自主设计制造、颈部视野和模块化架构等方面较一代有显著提升。一个月前,特斯拉已在德克萨斯州的超级工厂投入使用两台 Optimus 机器人,执行自主任务,代替人们完成简单机械的动作。特斯拉还将分享 Optimus Gen 2 在工业生产、家庭服务和医疗辅助等领域的潜在应用场景,进一步激发人们对未来智能生活的遐想。
苹果预计 AI 功能将推动 iPhone 16 销量增加 1000 万台
据 9to5Mac 报道,苹果公司预计通过在 iPhone 16 中引入新的 AI 功能,将使其销量增加 1000 万台。这些 AI 功能包括更先进的语音识别、自然语言处理和图像识别技术,旨在提升用户体验并吸引更多消费者。苹果希望通过这些创新技术在竞争激烈的智能手机市场中占据更大的份额。
谷歌 AI 与吉娜・戴维斯研究所合作,利用 AI 分析媒体内容
谷歌 AI 团队与吉娜・戴维斯研究所和南加州大学合作,利用人工智能技术分析媒体内容,揭示媒体中的代表性模式。该项目旨在通过数据驱动的分析,推动更加公平的媒体环境。
人物与发言
前 OpenAI 研究员预测 2030 年超级人工智能将到来
前 OpenAI Superalignment 部门研究员、哥伦比亚大学 2021 届毕业生 Leopold Aschenbrenner 在其长文和播客中预测,到 2025/26 年,人工通用智能(AGI)的能力将超越许多大学毕业生,并可能在 2030 年达到超级智能的水平,能够完成 AI 研究人员和工程师的工作。他警告,这一发展将带来国家安全和经济挑战,尤其是在全球超级大国之间,并强调需要立即启动安全计划,以确保在智能爆炸到来前,能够有效控制这些超级智能系统。尽管他的观点引发了广泛讨论和热议,也有专家质疑其对 AGI 能力的过度乐观预测,认为其对实际工作的替代能力仍需时间验证。
论文与研究
DeepMind 在虚拟环境中成功模拟果蝇行为
DeepMind 与霍华德・休斯医学研究所 Janelia 研究园区合作,成功在虚拟环境中模拟了果蝇的行为。研究团队通过显微成像和计算机软件构建了一个解剖学上精确的果蝇模型,并在 MuJoCo 物理引擎中实现了这一模型。该虚拟果蝇能够模仿真实果蝇的飞行和行走行为,为科学家提供了一个研究神经系统、身体和环境如何共同控制行为的强大工具。这一研究成果已在 bioRxiv 上发布,展示了虚拟果蝇在不同速度下的飞行和行走轨迹。
麻省理工学院研发神经信号控制仿生腿,助力患者自然行走
麻省理工学院仿生学中心研制出了一款可以用神经信号控制的仿生腿,并将相关研究结论发表在《自然-医学》杂志上。这项技术需要患者进行特殊手术,植入“主动肌-对抗肌肌神经接口”,在身体和机器的非侵入式电极之间建立双向连接。仿生腿不仅能接收来自身体的指令,还能向身体发送位置信息,帮助患者感知假肢在空间中的位置,从而提升“本体感觉”。这使得患者能够以正常速度行走、轻松小跑,自如地上下楼梯与斜坡,灵巧地绕过障碍物,所有动作流畅自然。
模型与应用
NVIDIA 发布 Broadcast 1.4 版,新增眼神交流和晕影工具
NVIDIA 推出了 Broadcast 1.4 版,在原有功能基础上新增了两项新功能:眼神交流和晕影工具。眼神交流功能可自动调整网络摄像头图像,使用户看起来像是在直视观众;晕影工具则为图片添加暗角,主要用于装饰。此外,1.4 版本还提升了虚拟背景效果的稳定性和质量。NVIDIA Broadcast 适用于配备 NVIDIA RTX 2060、NVIDIA Quadro RTX 3000 或 Titan RTX GPU(或更新版本)的 PC,系统需为 Windows 10 或 Windows 11,并配备至少 8GB RAM 和较新的 Intel 或 AMD 处理器。
谷歌推出 Google Vids AI 视频编辑工具,提升视频创作效率
谷歌推出了全新的人工智能视频编辑应用程序 Google Vids,现已部分开启测试。用户只需描述视频的主题和目的,Vids 便会使用 Gemini AI 从 Shutterstock 查找相关素材,快速创建故事板和脚本。用户可以通过添加或删除幻灯片、文本字段、图像和录音等元素来编辑视频,最终导出为 MP4 文件。该工具还支持从 Google 云端硬盘中的文档进行创作,并提供预设模板供选择。Google Vids 是多年来第一个加入 Google Workspace 套件的生产力工具,目前仅供 Workspace Labs 测试人员使用,预计将在今年晚些时候向付费用户推出。
联想发布首款骁龙芯片 AI PC,续航 24 小时不降频
联想推出了其首款搭载骁龙芯片的 AI PC——“YOGA Air 14s 骁龙 AI 元启”,实现了不插电续航 24 小时且性能不下降的突破。同时发布的还有搭载 Intel 芯片的“YOGA Air 14c AI 元启”、拯救者 Y9000P 系列 AI 笔记本,以及 moto razr 50 Ultra 等三款 AI 手机。YOGA Air 14s 骁龙 AI 元启售价 9999 元。
腾讯元宝推出深度搜索模式,提供结构化回答
7 月 1 日,腾讯宣布其大模型应用“腾讯元宝”AI 搜索能力升级,推出深度搜索模式。此模式下,腾讯元宝的 AI 搜索将对问题进行扩展,从深度和广度提供更结构化、更丰富的回答,并同步生成内容大纲、思维导图及相关人物事件梳理,帮助用户全面了解搜索内容。作为基于混元大模型推出的 AI 原生应用,腾讯元宝拥有看、听、说等多模态交互能力,提供 AI 搜索、AI 总结、AI 写作一站式服务,支持多种文件格式的解析和多种数据图表的生成。本次升级将进一步满足用户在专业、复杂话题下的信息获取需求。
腾讯利用虚拟人格提升 7B 模型数学成绩,媲美 GPT-4 Turbo
腾讯通过创建 10 亿个虚拟人格,生成了大量合成数据,使 7B 模型的数学成绩提升了 15 分,达到了与 GPT-4 Turbo 相当的水平。研究发现,在数据合成提示中加入角色信息,可以生成具有独特视角的合成数据,从而提高模型性能。这个包含 10 亿个不同人格信息的 Persona Hub,展示了虚拟人格在数据合成中的巨大潜力。
Suno 推出 iOS 应用程序,音乐创作更便捷
AI 音乐初创公司 Suno 宣布其应用程序现已登陆 iOS 平台,用户可以在 Apple App Store 下载使用。目前该应用程序仅在美国可用,官方表示后续将推出 Android 版本,并扩展至更多国家和地区。
GLM 技术团队推出 AutoDetect 框架,提升大语言模型自我诊断能力
GLM 技术团队推出了 AutoDetect,这是首个在通用任务上系统探索大语言模型(LLM)缺陷的框架。AutoDetect 通过主考官、出题者和评估者三个角色协同工作,对模型进行全面测试和动态优化,成功率高达 30%。该框架不仅帮助发现模型在指令遵循、数学、代码任务上的缺陷,还能从中学习,提升模型性能约 10%。研究表明,AutoDetect 能生成创意性的测试问题,发现模型在简单任务中的错误,比人工方法更高效。未来,AutoDetect 有望成为提升 LLM 性能的重要工具。
韩国团队提出 Block Transformer,解码速度提升 20 倍
韩国科学技术院、LG 和 DeepMind 的研究人员提出了一种新的 Transformer 架构 ——Block Transformer。通过对 Transformer 的注意力机制进行切块调整,研究人员成功解决了原始 Transformer 推理速度慢的问题。原始 Transformer 每生成一个 Token 就要访问一次全局 KV 缓存,导致 GPU 有效利用率不到 1%。Block Transformer 在没有明显质量损失的情况下,将推理吞吐量提升了 10-20 倍,大幅度降低了内存开销。
多语言文本分割新方法:Segment Any Text 模型引领新潮流
来自约翰·开普勒林茨大学、林茨理工学院和剑桥大学的研究团队提出了一种名为 Segment Any Text (SaT) 的新模型,专注于多语言文本分割。该模型通过新的预训练方案减少对标点符号的依赖,增强了鲁棒性,并引入了参数高效微调阶段,在不同领域(如歌词、诗句、法律文件)实现了最先进的性能。此外,SaT 通过架构修改提高了算法速度,并解决了对上下文的虚假依赖问题。实验证明,SaT 在跨越不同领域和语言的 8 个语料库中优于所有基线,特别是在文本格式不佳的实际相关情况下。
相关阅读
AI 早知道:马斯克宣布 Grok-2 于 8 月推出;Meta 发布基于 LLM 的编译器
AI 早知道:Hebbia 获 1 亿美元融资;OpenAI 考虑收购 Scale AI;亚马逊聘请 Adept CEO