Yann LeCun 认为,当前的 AI 方法存在缺陷,他推动了“世界建模”的超级智能愿景。
Yann LeCun 表示,大型语言模型(LLMs)只有在输入了正确的训练数据时才能准确回答问题,因此它们对逻辑的理解非常有限……不理解物理世界,没有持久记忆,无法按任何合理的定义进行推理,也无法进行层次化规划。
在与英国《金融时报》的一次访谈中,他反对依赖不断发展的 LLMs 来追求人类级别的智能,因为这些模型只有在被输入正确的训练数据时才能准确回答问题,因此“本质上是不安全的”。
相反,他正在努力开发一个全新的 AI 系统,希望这些系统能够为机器提供人类级别的智能,尽管他表示这一愿景可能需要 10 年才能实现。
随着生成性 AI 的爆炸式增长,Meta 一直在投入数十亿美元开发自己的 LLMs,以追赶包括微软支持的 OpenAI 和 Alphabet 的 Google 在内的竞争对手。
LeCun 在 Meta 的基础 AI 研究(Fair)实验室领导着一个约有 500 名员工的团队。他们致力于创建能够发展常识并以类似人类的方式了解世界的 AI,这种方法被称为“世界建模”。
Meta AI 负责人的实验性愿景对于这家社交媒体集团来说是一个潜在的风险和昂贵的赌注,尤其是在投资者渴望看到 AI 投资快速回报的时候。
上个月,当首席执行官马克·扎克伯格誓言增加支出并将社交媒体集团转变为“世界上最领先的 AI 公司”时,Meta 市值蒸发了近 2000 亿美元,这令华尔街投资者感到恐慌,他们担心成本上升而没有立即的收入潜力。
“我们正处于这样一个时刻,我们认为我们可能正处于下一代 AI 系统的边缘,”LeCun 说。
他的言论发表之际,Meta 及其竞争对手正在推进更先进的 LLMs。像 OpenAI 联合创始人 Sam Altman 这样的人物认为,它们为创建人工通用智能(AGI)——即机器的认知能力超过人类的点——提供了至关重要的一步。
上周,OpenAI 发布了新的更快的 GPT-4o 模型,Google 推出了一个新的“多模态”AI 代理,名为 Project Astra,它可以实时回答视频、音频和文本的查询,由其升级版的 Gemini 模型驱动。
Meta 上个月也推出了新的 Llama 3 模型。公司全球事务负责人 Nick Clegg 表示,其最新的 LLM 具有“大大改进的能力,如推理”——将逻辑应用于查询的能力。例如,该系统会推断出患有头痛、喉咙痛和流鼻涕的人感冒了,但也能认识到过敏可能是导致症状的原因。
然而,LeCun 表示,LLMs 的这种演变是表面的和有限的,这些模型只有在人类工程师介入并对其进行训练时才会学习,而不是像人们那样有机地得出结论。
“对大多数人来说,它看起来确实是推理——但大多数情况下它是在利用大量训练数据积累的知识,”LeCun 说,但他补充说:“尽管有局限性,LLMs 仍然非常有用。”
Google DeepMind 也花费了数年时间追求构建 AGI 的替代方法,包括强化学习等方法,在这种方法中,AI 智能体从一个类似游戏的虚拟环境中学习。
在周二在伦敦举行的一个活动上,DeepMind 的负责人 Sir Demis Hassabis 表示,语言模型所缺少的是“它们不理解你所处的空间环境……这限制了它们的最终用途”。
Meta 于 2013 年成立了 Fair 实验室,以开创 AI 研究,并聘请了该领域的领先学者。
然而,在 2023 年初,Meta 创建了一个新的 GenAI 团队,由首席产品官 Chris Cox 领导。它从 Fair 挖走了很多 AI 研究人员和工程师,并领导了 Llama 3 的工作,并将其集成到产品中,如其新的 AI 助手和图像生成工具。
创建 GenAI 团队之际,一些内部人士认为,Fair 实验室内部的学术文化部分导致了 Meta 在生成性 AI 热潮中的迟到。在投资者的压力下,扎克伯格一直在推动 AI 的更多商业应用。
然而,据接近公司的人士称,LeCun 仍然是扎克伯格的核心顾问之一,因为他的记录和声誉作为 AI 的奠基人之一,赢得了图灵奖,以表彰他在神经网络方面的工作。
“我们已经将 Fair 重新聚焦到实现人类级别 AI 的长期目标上,因为 GenAI 现在专注于我们有明确路径的东西,”LeCun 说。
“实现 AGI 不是一个产品设计问题,甚至不是一个技术开发问题,它是一个科学问题,”他补充说。
LeCun 在 2022 年首次发表了关于他的世界建模愿景的论文,Meta 此后发布了两个基于这种方法的研究模型。
今天,他说 Fair 正在测试不同的理念来实现人类级别的智能,因为“这里有很多不确定性和探索,所以我们无法判断哪一个会成功或最终被采纳”。
其中,LeCun 的团队正在向系统输入数小时的视频,并故意省略帧,然后让 AI 预测接下来会发生什么。这是为了模仿儿童如何从被动观察周围世界中学习。
他还说,Fair 正在探索构建“一个通用的文本编码系统”,这将允许一个系统处理文本中的抽象知识表示,然后可以将其应用于视频和音频。
一些专家对 LeCun 的愿景是否可行表示怀疑。
杜兰大学计算机科学副教授 Aron Culotta 表示,常识长期以来一直是“AI 的棘手问题”,并且教模型因果关系具有挑战性,使它们“容易受到这些意外失败的影响”。
一位前 Meta AI 员工将世界建模推动描述为“模糊的废话”,并补充说:“感觉像立了很多 Flag。”
另一位现任员工表示,Fair 尚未证明自己是 DeepMind 等研究团体的真正竞争对手。
从长远来看,LeCun 相信这项技术将为用户通过可穿戴技术(包括增强现实或“智能”眼镜和肌电图(EMG)手环)与之交互的 AI 代理提供动力。
“为了让 AI 智能体真正有用,它们需要拥有类似人类级别的智能,”他说。
在《金融时报》文章发布之后,Lecun 在 X 上转发文章并表示:《金融时报》上有一篇不错的文章,我在其中解释了自回归 LLM 不足以达到人类水平的智力(甚至猫水平的智力)。但我称之为“目标驱动”的替代架构有一天可能会达到人类水平的智能。他们使用基于 JEPA(联合嵌入预测架构,非生成式)的世界模型。有了这个,我们可能会有这样的系统 :1.了解物理世界;2.有持久记忆;3. 可以推理;4. 能够进行计划,也许是分层的。人类和许多动物都表现出智能行为所必需的四个基本特征。
本文翻译自:https://www.ft.com/content/23fab126-f1d3-4add-a457-207a25730ad9https://x.com/ylecun/status/1793680385403957295