AI 早知道：阿里音频模型开源；Kimi 论文自曝推理架构；无限光年获阿里投资

企业动态

漆远创立无限光年，获阿里投资进军可信大模型赛道

复旦大学特聘教授、上海科学智能研究院院长漆远在离职蚂蚁集团副总裁后，创立了大模型公司无限光年，并获得阿里云、启明创投等头部投资机构的多轮融资支持。漆远团队致力于在 Transformer 基础上结合知识图谱和神经符号计算，打造更为 “可信” 的大模型，以满足专业领域对准确性、可靠性和严谨性的要求。漆远强调，这并非简单的 “可信 AI” 与 “大模型” 概念的相加，而是通往 AGI 的一条重要路径。

钛虎机器人推出二代人形机器人 T170A，完成数千万元融资

钛虎机器人宣布推出二代人形机器人 T170A 实体 “瑶光” 和 “墨翟”，并完成数千万元 Pre-A 轮融资，由经纬创投领投。T170A 机器人身高 1.7 米，采用自主研发的轻量化关节模组，整体自重 48 公斤，具备 44 个自由度，单手负载能力达 5 公斤。其腿部关节的扭矩密度高达 220Nm/kg，使其能够完成单腿跳跃等高难度动作。T170A 搭载英伟达 Jetson AGX Orin 64GB、激光雷达和双目相机等先进计算和感知硬件。钛虎机器人成立于 2020 年 8 月，专注于下一代先进电驱动力单元的研发。

亚马逊终止 Astro 保安机器人业务，专注家用市场

亚马逊宣布将于 9 月 25 日终止 Astro for Business 计划，这款面向中小型企业的机器人保安推出还不到一年。Astro 商业版于 2023 年 11 月发布，具备高清潜望镜和夜视技术，可自动巡逻并绘制空间地图。设备起售价为 2350 美元，但因安全订阅产品费用高达每月 179 美元而受到批评。亚马逊表示，受影响员工将转向家用消费机器人产品，并将全额退款设备原始成本及额外信用额度。

人物与发言

启明创投周志峰展望 2024 生成式人工智能十大趋势

在 2024 世界人工智能大会（WAIC）上，启明创投主管合伙人周志峰发表了题为 “技术突破到应用变革 – 人工智能发展的新篇章” 的演讲。他预测了生成式人工智能的十大趋势，包括 GPT 和扩散模型的融合、高质量数据的重要性、多智能体技术的飞跃、图文联合扩散模型的进步、图像和视频生成速度的提升、视频生成的全面爆发、超级多模态大模型的出现、人类语言与机器语言转换的成本降低、端侧推理的增长以及人工智能在多个行业中的主导地位。这些趋势将显著推动生成式人工智能的发展和应用。

谷歌 AI 主管 Logan Kilpatrick 展望未来四年设备端大型语言模型的普及

谷歌 AI 主管 Logan Kilpatrick 表示，未来四年内，设备端的大型语言模型（LLM）将为数十亿人解锁人工智能的潜力。他希望这些模型的能力能够持续提升，使得这项技术的全部力量能够普遍可及。Kilpatrick 目前负责 Google AI Studio 和 Gemini API 的开发工作，曾在 OpenAI 担任开发者关系主管，并在苹果公司和美国国家航空航天局（NASA）有过工作经历。

论文与研究

月之暗面团队揭秘 Kimi 背后的推理架构 Mooncake

月之暗面和清华大学 KVCache.ai 团队发布的最新论文首次揭秘了 Kimi 背后的推理架构 Mooncake（月饼）。作为国产大模型的热门产品，Kimi 一直以来流量不断，甚至经常出现过载现象。论文揭示，Mooncake 采用了分离式设计方案，专门针对大流量场景进行研发。在模拟场景下，Mooncake 最高能带来 525% 的吞吐量增长，实际场景中也能多处理 75% 的请求。据月之暗面工程副总裁许欣然介绍，Kimi 有 80% 以上的流量都是由该系统承接。

模型与应用

阿里发布 FunAudioLLM 开源项目，推出 SenseVoice 和 CosyVoice 两大语音模型

阿里通义实验室最新发布了开源语音大模型项目 FunAudioLLM，包含两个模型：SenseVoice 和 CosyVoice。SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测，支持超过 50 种语言，效果优于 Whisper 模型，中文与粤语识别提升 50% 以上。CosyVoice 则专注于自然语音生成，支持中英日粤韩 5 种语言的生成，能够在 3~10 秒内生成模拟音色，并支持细粒度的情感和韵律控制。FunAudioLLM 的发布标志着阿里在语音生成领域的重大突破。

快手文生图大模型 Kolors 宣布开源

快手公司最新的文生图扩散模型 Kolors 已在 GitHub 上开源。Kolors 模型基于快手自研的文生图大模型，参数规模达十亿级，能够生成风格多样、画质精美的绘画作品，并支持图像智能编辑。该模型的训练数据覆盖了常见的千万级中文实体概念，兼具世界知识。

商汤科技发布 InternLM-XComposer2.5 视觉语言模型

商汤科技的 InternLM 团队推出了 InternLM-XComposer2.5，这是一种支持长文本输入和输出的多功能视觉语言模型（VLM）。该模型基于 InternLM 7B 开发，采用了 “Partial LoRA” 方法，专门应用于图像标记，保留了预训练语言知识的完整性。InternLM-XComposer2.5 能够生成网页和高质量的图文文章，支持视频理解、多轮多图像聊天和语音交互，并能处理高分辨率（4K）图像理解任务。该模型在多个基准测试中表现优异，击败了 GPT-4V 和 Gemini Pro。

穹彻智能推出具身大脑 Noematrix Brain，聚焦操作物理常识与行为决策

2023 年 7 月 4 日，具身智能公司穹彻智能 Noematrix 发布了其最新产品 —— 穹彻具身大脑 Noematrix Brain。该公司由通用智能机器人公司 Flexiv 非夕科技战略孵化，联合创始人为上海交通大学教授、长江学者特聘教授卢策吾。卢策吾及其团队在构建具身智能大模型时，重点关注操作物理常识和力反馈嵌入智能体行为决策的联合训练。Noematrix Brain 以「实体世界大模型」和「机器人行为大模型」为核心，分别负责理解世界和决策行为，具有高效的训练能力和出色的鲁棒性与安全性。

金山办公发布 WPS AI 政务版，助力公务员高效处理政务

在世界人工智能大会（WAIC）上，金山办公发布了自研的金山政务办公模型 1.0，并推出了 WPS AI 政务版。该版本集成了丰富的模板和范文，支持生成大纲、续写、润色、纠错、查重和排版等功能，极大地提升了公务员处理政务的效率。WPS AI 政务版已经在上海浦东新区部分单位实际应用，展示了其在政务办公领域的强大能力。金山办公通过 13B 自研模型、亿级政务预语料训练和百万级人工精标数据，确保了 AI 生成内容的质量和可靠性。

华中科技大学等团队推出 Holmes-VAD，实现视频异常检测与解释

华中科技大学、百度和密歇根大学的研究团队提出了一种名为 Holmes-VAD 的视频异常检测框架。Holmes-VAD 不仅能够精确定位视频中的异常，还能提供详细的解释和分析。例如，它可以识别监控视频中的交通事故或爆炸场景，并解释这些事件的异常性。Holmes-VAD 基于视频多模态大模型微调，利用精确的时序监督和多模态指令，实现了准确的异常定位和全面的解释。此外，研究团队还引入了视频异常检测领域的大规模多模态指令数据集 ——VAD-Instruct50k。

西日本铁路公司引入巨型机器人维护铁路

从本月开始，西日本铁路公司将使用一款 12 米高的大型机器人进行铁路网络的维护工作。该机器人安装在卡车上，能够在轨道上行驶，并使用各种手臂附件搬运重物、进行油漆和修剪树枝等任务。操作员通过远程控制机器人，利用其摄像头观察外界。这项技术不仅有助于解决日本老龄化带来的工人短缺问题，还能减少工人从高处坠落或触电的风险。