企业动态
漆远创立无限光年,获阿里投资进军可信大模型赛道
复旦大学特聘教授、上海科学智能研究院院长漆远在离职蚂蚁集团副总裁后,创立了大模型公司无限光年,并获得阿里云、启明创投等头部投资机构的多轮融资支持。漆远团队致力于在 Transformer 基础上结合知识图谱和神经符号计算,打造更为 “可信” 的大模型,以满足专业领域对准确性、可靠性和严谨性的要求。漆远强调,这并非简单的 “可信 AI” 与 “大模型” 概念的相加,而是通往 AGI 的一条重要路径。
钛虎机器人推出二代人形机器人 T170A,完成数千万元融资
钛虎机器人宣布推出二代人形机器人 T170A 实体 “瑶光” 和 “墨翟”,并完成数千万元 Pre-A 轮融资,由经纬创投领投。T170A 机器人身高 1.7 米,采用自主研发的轻量化关节模组,整体自重 48 公斤,具备 44 个自由度,单手负载能力达 5 公斤。其腿部关节的扭矩密度高达 220Nm/kg,使其能够完成单腿跳跃等高难度动作。T170A 搭载英伟达 Jetson AGX Orin 64GB、激光雷达和双目相机等先进计算和感知硬件。钛虎机器人成立于 2020 年 8 月,专注于下一代先进电驱动力单元的研发。
亚马逊终止 Astro 保安机器人业务,专注家用市场
亚马逊宣布将于 9 月 25 日终止 Astro for Business 计划,这款面向中小型企业的机器人保安推出还不到一年。Astro 商业版于 2023 年 11 月发布,具备高清潜望镜和夜视技术,可自动巡逻并绘制空间地图。设备起售价为 2350 美元,但因安全订阅产品费用高达每月 179 美元而受到批评。亚马逊表示,受影响员工将转向家用消费机器人产品,并将全额退款设备原始成本及额外信用额度。
人物与发言
启明创投周志峰展望 2024 生成式人工智能十大趋势
在 2024 世界人工智能大会(WAIC)上,启明创投主管合伙人周志峰发表了题为 “技术突破到应用变革 – 人工智能发展的新篇章” 的演讲。他预测了生成式人工智能的十大趋势,包括 GPT 和扩散模型的融合、高质量数据的重要性、多智能体技术的飞跃、图文联合扩散模型的进步、图像和视频生成速度的提升、视频生成的全面爆发、超级多模态大模型的出现、人类语言与机器语言转换的成本降低、端侧推理的增长以及人工智能在多个行业中的主导地位。这些趋势将显著推动生成式人工智能的发展和应用。
谷歌 AI 主管 Logan Kilpatrick 展望未来四年设备端大型语言模型的普及
谷歌 AI 主管 Logan Kilpatrick 表示,未来四年内,设备端的大型语言模型(LLM)将为数十亿人解锁人工智能的潜力。他希望这些模型的能力能够持续提升,使得这项技术的全部力量能够普遍可及。Kilpatrick 目前负责 Google AI Studio 和 Gemini API 的开发工作,曾在 OpenAI 担任开发者关系主管,并在苹果公司和美国国家航空航天局(NASA)有过工作经历。
论文与研究
月之暗面团队揭秘 Kimi 背后的推理架构 Mooncake
月之暗面和清华大学 KVCache.ai 团队发布的最新论文首次揭秘了 Kimi 背后的推理架构 Mooncake(月饼)。作为国产大模型的热门产品,Kimi 一直以来流量不断,甚至经常出现过载现象。论文揭示,Mooncake 采用了分离式设计方案,专门针对大流量场景进行研发。在模拟场景下,Mooncake 最高能带来 525% 的吞吐量增长,实际场景中也能多处理 75% 的请求。据月之暗面工程副总裁许欣然介绍,Kimi 有 80% 以上的流量都是由该系统承接。
模型与应用
阿里发布 FunAudioLLM 开源项目,推出 SenseVoice 和 CosyVoice 两大语音模型
阿里通义实验室最新发布了开源语音大模型项目 FunAudioLLM,包含两个模型:SenseVoice 和 CosyVoice。SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测,支持超过 50 种语言,效果优于 Whisper 模型,中文与粤语识别提升 50% 以上。CosyVoice 则专注于自然语音生成,支持中英日粤韩 5 种语言的生成,能够在 3~10 秒内生成模拟音色,并支持细粒度的情感和韵律控制。FunAudioLLM 的发布标志着阿里在语音生成领域的重大突破。
快手文生图大模型 Kolors 宣布开源
快手公司最新的文生图扩散模型 Kolors 已在 GitHub 上开源。Kolors 模型基于快手自研的文生图大模型,参数规模达十亿级,能够生成风格多样、画质精美的绘画作品,并支持图像智能编辑。该模型的训练数据覆盖了常见的千万级中文实体概念,兼具世界知识。
商汤科技发布 InternLM-XComposer2.5 视觉语言模型
商汤科技的 InternLM 团队推出了 InternLM-XComposer2.5,这是一种支持长文本输入和输出的多功能视觉语言模型(VLM)。该模型基于 InternLM 7B 开发,采用了 “Partial LoRA” 方法,专门应用于图像标记,保留了预训练语言知识的完整性。InternLM-XComposer2.5 能够生成网页和高质量的图文文章,支持视频理解、多轮多图像聊天和语音交互,并能处理高分辨率(4K)图像理解任务。该模型在多个基准测试中表现优异,击败了 GPT-4V 和 Gemini Pro。
穹彻智能推出具身大脑 Noematrix Brain,聚焦操作物理常识与行为决策
2023 年 7 月 4 日,具身智能公司穹彻智能 Noematrix 发布了其最新产品 —— 穹彻具身大脑 Noematrix Brain。该公司由通用智能机器人公司 Flexiv 非夕科技战略孵化,联合创始人为上海交通大学教授、长江学者特聘教授卢策吾。卢策吾及其团队在构建具身智能大模型时,重点关注操作物理常识和力反馈嵌入智能体行为决策的联合训练。Noematrix Brain 以「实体世界大模型」和「机器人行为大模型」为核心,分别负责理解世界和决策行为,具有高效的训练能力和出色的鲁棒性与安全性。
金山办公发布 WPS AI 政务版,助力公务员高效处理政务
在世界人工智能大会(WAIC)上,金山办公发布了自研的金山政务办公模型 1.0,并推出了 WPS AI 政务版。该版本集成了丰富的模板和范文,支持生成大纲、续写、润色、纠错、查重和排版等功能,极大地提升了公务员处理政务的效率。WPS AI 政务版已经在上海浦东新区部分单位实际应用,展示了其在政务办公领域的强大能力。金山办公通过 13B 自研模型、亿级政务预语料训练和百万级人工精标数据,确保了 AI 生成内容的质量和可靠性。
华中科技大学等团队推出 Holmes-VAD,实现视频异常检测与解释
华中科技大学、百度和密歇根大学的研究团队提出了一种名为 Holmes-VAD 的视频异常检测框架。Holmes-VAD 不仅能够精确定位视频中的异常,还能提供详细的解释和分析。例如,它可以识别监控视频中的交通事故或爆炸场景,并解释这些事件的异常性。Holmes-VAD 基于视频多模态大模型微调,利用精确的时序监督和多模态指令,实现了准确的异常定位和全面的解释。此外,研究团队还引入了视频异常检测领域的大规模多模态指令数据集 ——VAD-Instruct50k。
西日本铁路公司引入巨型机器人维护铁路
从本月开始,西日本铁路公司将使用一款 12 米高的大型机器人进行铁路网络的维护工作。该机器人安装在卡车上,能够在轨道上行驶,并使用各种手臂附件搬运重物、进行油漆和修剪树枝等任务。操作员通过远程控制机器人,利用其摄像头观察外界。这项技术不仅有助于解决日本老龄化带来的工人短缺问题,还能减少工人从高处坠落或触电的风险。