2024 年 10 月 30 日,在第八届 “未来投资倡议”(Future Investment Initiative)会议期间,在利雅得阿卜杜勒-阿齐兹国王国际会议中心举行了题为 “超越 GPT 模式–未来十年走向何处?”的对话。本次对话的嘉宾有李开复博士、Richard Socher 和 Prem Akkaraju,他们都是人工智能领域的杰出人物,以其在 AI 技术开发和应用上的卓越贡献而著称。访谈的主题是人工智能未来的发展,尤其是突破当前类似 ChatGPT 模型的潜力。讨论深入探讨了 AI 在智能代理、数字世界影响以及对物理世界变革中的角色。
现任 Stability AI 首席执行官的 Prem Akkaraju 作为开源图像、视频及 3D 模型开发的领军人物,在讨论中重点强调了 AI 在视觉生成及其在多模态模型中的应用前景。同时,李开复博士指出,中国在自主开发版本 ChatGPT 时所面临的挑战,并论述了本土 AI 解决方案的重要性,以应对国际禁令及技术限制。
以下是彼得·H·迪亚曼迪斯(Peter H Diamandis)与三位首席执行官对话的核心观点:
- 内容创作的未来: 普雷姆·阿卡拉朱(Prem Akkaraju)指出,AI 在内容创作中的运用预示着创作数量的大幅增长,可能会达到原来的五到十倍,甚至更多,这将带来全球艺术家数量的显著增加。
- 多模态 AI 模型的发展: 理查德·索契尔(Richard Socher)预测,未来的 AI 将不仅限于处理文本,而是发展出能够理解图像、视频、编程等多种模式的多模态模型,这将是一个巨大的技术突破。
- 智能的极限与 AI 的自我提升: 对话探讨了智能是否有上限的问题,提出了 AI 可能在多个维度上不断增长的观点,包括语言智能、视觉感知智能、推理等,同时也指出了物理学的极限,如量子观测的极限。
- 中国 AI 公司的特色与挑战: 李开复(Kai-Fu Lee)讨论了中国 AI 公司的特点,强调了它们在技术开发、执行力和细节处理方面的优势,同时也提到了在资源限制下创新的必要性。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
大家好,欢迎来到又一次关于人工智能的对话。我感觉我们对此的讨论还远远不够。我特别要感谢 Richard Attias 先生和 FII 团队,今年他们确实推动了更多关于人工智能的讨论。在我看来,没有比这个话题更重要的了。
人工智能正在改变金融、领导力、教育和医疗等各个领域的一切。这里有三位出色的首席执行官,他们代表着人工智能崛起的不同方面。我会先请每位用一分钟自我介绍,说明他们的工作内容。之后,我们将深入探讨这个话题:它将走向何方?发展速度有多快?能达到多大的规模?我们还将探讨在 ChatGPT 之后的发展方向。现在请 Prem 先作自我介绍。
普雷姆-阿卡拉朱(Prem Akkaraju)
谢谢你,Peter。我是 Prem Akkaraju,作为 Stability AI 的 CEO,我们是全球领先的开源图像、视频和 3D 模型公司之一,并且涉足曾经广受关注的 GPT 领域。众所周知,一图胜千言,而我们正创造许多这样的图像。事实上,到 2023 年,所有由 AI 生成的图像中,有 80%由我们的模型 Stable Diffusion 驱动。
理查德·索契尔(Richard Socher)
大家好,很高兴能在这里与大家交流。我叫 Richard,是 you.com 的创始人及首席执行官。you.com 是一个专注于提高生产力的平台,一款继搜索引擎和问答引擎之后的新一代产品。我们致力于帮助各类组织提升工作效率,从对冲基金到大学、公司、保险企业,以及新闻出版机构,我们的平台几乎能惠及在销售、服务、市场营销、研究和分析等众多领域的每一个人。
此外,我还运营着一个名为 AIX Ventures 的风险投资基金,专注于投资初创阶段的 AI 公司和种子轮企业。我有幸在斯坦福大学任教时,投资了两位学生创办的小公司 Hugging Face。当时投资时公司估值为 500 万美元,而如今公司的市值已达 45 亿美元,因此这个基金的业绩表现非常出色。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
这完全是在炫耀……真是彻底的炫耀……我也希望自己能像那样炫耀……李开复博士。
李开复(Kai-Fu Lee)
我从事人工智能领域约 43 年。早在大学期间就开始研究人工智能,而那时我的一些同事甚至还没出生。最初,我的研究主要集中在机器学习上。我在卡内基梅隆大学取得了博士学位,并曾在苹果、微软和谷歌等公司工作。许多人可能通过我的书《AI Superpowers》和《2041: 智能进化》认识我。
目前,我是一家名为 ZeroOne.ai 的生成式 AI 企业的全职运营负责人,同时还兼职负责创新工场的全球投资。我们开发了一种大型语言模型,公司在性能排名中位列第三,仅次于 OpenAI 和谷歌的最佳模型,这一点可以在网上查到。与此同时,我们还在开发面向消费者和企业的产品。公司的总部设在中国,但我们的产品销往全球,并积极参与开源项目。
内容创作的大爆发
彼得·H·迪亚曼迪斯(Peter H Diamandis)
首先,能够邀请到全球领先领域的专家李开复是我们的荣幸。Prem,我想请你分享你的观点。由于成功邀请詹姆斯·卡梅隆加入你们的董事会而闻名,因为你们的公司正在创新视频技术,一定程度上也在塑造好莱坞的未来。对此我有两个问题感到好奇。
首先,詹姆斯·卡梅隆在电影《终结者》中对未来的设想是否已成为现实?其次,关于好莱坞的颠覆有诸多讨论,大家常说人工智能将变革未来的电影和内容创作。你曾提到,视觉图像超越了生成预训练变换器(GPT)模型中的文字表达,能否为我们描述一下这样的未来?在电视和好莱坞的可视化领域,我们可以期待怎样的变革?
普雷姆-阿卡拉朱(Prem Akkaraju)
我喜欢这部电影。那么,Jim 对《终结者》的预测是否成真了呢?我希望不会,不过这确实是一部伟大的电影。我喜欢 Jim 开玩笑的样子,他总是说:“我告诉过你们,这会发生的,现在它真的成真了。”
彼得·H·迪亚曼迪斯(Peter H Diamandis)
那么,为什么像他这样的人会加入 Stability 呢?
普雷姆-阿卡拉朱(Prem Akkaraju)
我很高兴回答这个问题。事实上,在加入 Stability AI 担任 CEO 之前,我有幸担任 Weta Digital 的 CEO,参与了《阿凡达 2》的制作。那部电影耗时四年多才完成,因为需要对电影进行完全渲染。展望未来五到十年,我们今天所知的大部分电影、电视和视觉媒体将不再通过渲染制作,而是使用生成模型来生成。
在《阿凡达》中,有些镜头需要耗费 6,000 到 7,000 小时的计算时间才能渲染出一帧图像。而现在,这些耗时可以缩短到几分钟。我想詹姆斯·卡梅隆只是希望能节省这些时间。谈到创作过程,从出生到我们能记得的最后一刻,电影是一种我们永远不会厌倦的艺术形式。我们一直渴望观看它。因此,世界对故事消费和创造的渴望是无穷无尽的。我认为我们应该加快这一进程。电影制作过程面临的问题在于所需的时间和成本。他真正想做的是消除这些障碍,将我们从渲染模型转变为生成模型。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
我们是否会看到这样的情况:AI 能够了解我的偏好和喜好,从而为我量身定制出整部电影,成为专属于我的完美影片?
普雷姆-阿卡拉朱(Prem Akkaraju)
对我来说,我并不希望这样。我认为创作过程不应从机器生成开始,而应由人类引导。人类需要引导这些工具和独立代理,才能真正创作出故事。因此,我希望你能更愿意去倾听他人想要讲述的故事。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
您认为我们会看到玛丽莲·梦露和所有过去明星的重现吗?如果我们能够生成逼真的演员,那是否还需要真人演员呢?在这种情况下,我难以想象真人演员存在的理由。
普雷姆-阿卡拉朱(Prem Akkaraju)
在电影制作过程中,使用现场搭设背景板进行实景拍摄显得更为快捷和方便,因为这可以直接捕捉到演员的表演。现在,这已经成为电影制作中的一个显而易见的环节,很多人都倾向于采用这种方法。同时,人工智能技术将有助于提升这些表演。导演手持摄像机记录演员在镜头前的表演,这是创作过程中至关重要的一部分,我相信这种方式在短期内不会消失。
此外,我也在思考哪些元素会保持不变,以及未来会发生什么变化。然而,我认为,当导演捕捉到满意的镜头时,他们会说“我得到了”,因为现在可以更好地操控演员的表演。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
随着数字超智能的发展,您认为十年后电影和电视领域将会发生什么最显著的变革?在娱乐方面,我们将看到最具创新性的愿景是什么?
普雷姆-阿卡拉朱(Prem Akkaraju)
我认为,我们将看到内容创作数量的增长,达到原来的五到十倍,甚至可能是二十倍。 另外,我们会发现时间的利用方式变得多样化,比如在睡前的二十分钟内想看一部电影,那么就会有适合这些不同时间段的内容出现。我认为这将引发内容创作的大爆发,并带来全球艺术家数量的显著增加。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
十年后,我会回来看看你是否说对了。
普雷姆-阿卡拉朱(Prem Akkaraju)
好的。
我们将看到更多的多模态模型
彼得·H·迪亚曼迪斯(Peter H Diamandis)
Richard,您在早期将神经网络引入自然语言处理的过程中做出了关键贡献。您认为在自然语言处理之外,哪个领域将成为下一个前沿?能否简要解释一下什么是自然语言处理,以及这一技术的未来发展方向?
理查德·索契尔(Richard Socher)
自然语言处理(NLP)是人工智能的一个子领域,对人工智能的各个领域几乎都有影响。你可以使用多种不同的算法进行训练。2010 年,我有一个大胆的想法:为所有 NLP 任务训练一个神经网络。到 2018 年,我们终于建造出了第一个模型,该模型引入了提示工程,可以回答你各种各样的问题。随着时间的推移,你不仅可以在文本上提问,还可以在图像上提问。
因此,我认为对于“ChatGPT 之后是什么”这个讨论主题的一个答案是,我们将会看到更多的多模态模型。 你可以通过图像进行对话,并能够在不仅限于文字的模式中实现无缝的输入和输出,还包括编程、视觉、视频、图像、语音和声音,这是一个巨大的突破。
然而,还有一个非常有趣的领域尚未被广泛关注,那就是蛋白质。蛋白质本质上是构成生物学一切事物的基础“乐高积木”。我们身体中的一切都由蛋白质控制。你可以像让大语言模型为你写一首十四行诗或者写给你妻子的诗一样,要求它创造一种特定的蛋白质,这种蛋白质可能只与 SARS-CoV-2 结合,或是只与大脑中特定的癌细胞结合。这意味着我们将在医学的许多方面实现突破。因此,我对语言模型进入不同模式的未来感到非常兴奋。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
我们可以看到 DeepMind 在 Alpha Proteo 等产品中的表现。我们对此进行了讨论,但还没有得到答案。问题的核心是,智能有没有上限?我们近期刚召开了一次关于数字超级智能的会议,讨论何时能够达到这种目标以及其可能的意义。昨天,我与埃隆交流了关于 AI 智力逐步提升的看法,他认为到 2029 年或 2030 年,AI 的智力将达到全人类的水平。这是否意味着其智力会提升一百万倍,甚至十亿倍或一万亿倍?智能是否有上限?
理查德·索契尔(Richard Socher)
这是个非常有趣的问题。提到 AlphaFold 和 Google,它们展开了一项有趣的研究项目,研究蛋白质是如何折叠的,这有助于理解蛋白质在体内可能的功能和相互作用。在 2020 年,我们实际上开发出第一个生成全新类型蛋白质的大语言模型(LLM),其序列与任何天然存在的蛋白质有 40%的差异。我们还在实验室中合成了这种蛋白质,这是由 Salesforce Research 完成的。那么,这种蛋白质有什么作用呢?科学家们合成了一种具有抗菌性能的溶菌酶类蛋白质。为了让大家更好地理解这一点…
彼得·H·迪亚曼迪斯(Peter H Diamandis)
鉴于 COVID-19 于 2020 年爆发,请确保您没有…
理查德·索契尔(Richard Socher)
在网上发言有时需要谨慎。不过,值得注意的是,这一研究方向已经催生了多家初创企业。我认为,人们很难想象这将如何大幅改变医学领域。关于智能的极限,这是一个非常有趣的问题。智能能否不断增长?我认为必须从智能的不同维度来思考这个问题,包括语言智能、视觉感知智能、推理、知识提取以及物理操作等多个方面。
我给你举个例子,我不想谈得太久,但说到视觉智能,大家长期以来关注的都是人类视觉的电磁频谱。实际上,对地球上每个物体进行分类并不困难,我们很快可能就能完全实现这一点。但这仅仅是限于人类的视觉。AI 最终可能实现观测伽马射线频段,并尝试感知原子。在这方面,你会开始遇到物理学的极限,比如可观测量子的极限。
另外,你还可以在宇宙层面上观察更宏观的事物,这要看你拥有哪些传感器。随后就可以处理所有这些信息。AI 能够配置数十亿个传感器,在光速锥的限制内进行观察。关于这个话题我可以聊很久。这确实是一个复杂的问题,有些方面我们还离这些极限很远,而在其他方面,我们已经非常接近了。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
有趣的是,你提到 you.com 的目标是提高工作效率。这具体是什么意思呢?还有一个相关的问题是,既然我可以指挥 AI 代理和机器人来执行任务并在这个过程中自我改进,我们在提高工作效率时是否会遇到任何限制?最终,我们会不会达到某种无限制的 GDP 增长状态?
理查德·索契尔(Richard Socher)
在某些 AI 领域中,如果某种事物可以被模拟,那么 AI 实际上可以进入一个自我训练的循环。在所有能够完全模拟的领域,AI 可以解决大多数问题。例如在国际象棋和围棋这样的游戏中,因为可以完美地进行模拟,AI 能够通过自我训练和自我对弈数十亿次,创造出几乎无限的训练数据,从而解决这些领域中的诸多问题。那么,还有哪些领域是可以被完美模拟的呢?编程便是其中之一。编程语言可以在计算机中运行,因此 AI 能够随着时间的推移在编程方面不断提高,最终可能超过人类的水平。
然而,在客户服务领域,情况却不同,我们无法无限制地模拟。你不能创造数十亿的客户来询问关于所发产品的所有潜在问题。在这些领域中,数据收集是最大的限制。能否真正将这个过程完全数字化呢?我常开玩笑说,管道工可能是最不容易被 AI 取代的职业之一,因为没有人收集关于管道工工作的详细数据。想象一下,你可能需要爬到某处,使用各种管道工具……而目前并没有人使用 GoPro、3D 传感器以及机器人手臂来收集这类数据。因此,这一过程将需要很长时间。
我认为,在工作效率方面,许多人的角色将转变为管理者。 许多当前的个人贡献者员工将必须学习如何管理 AI 来完成他们的任务。而管理本身也是一项技能,并不是每个人起初都能成为出色的管理者。你需要清晰地向 AI 解释如何完成某项工作。
举例来说,在一家大型网络安全公司 Mimecast,他们拥有 200 个席位的许可证用于其产品。我们与他们举办了一次研讨会,向各个小组解释了可以采用的方法。有些部门,如市场部门,通常会获得一份冗长的产品描述,他们需要针对不同的行业进行阐述并制定电子邮件计划。我需要编写三条推文和三条 LinkedIn 消息,所有这些内容。我们建议他们将信息分享给代理,由代理为他们处理。令他们惊讶的是,现在他们可以在两周内自动化完成原本需要六到二十小时的工作。通过向 AI 代理描述这项以前手动完成的工作流程,我们认为这将改变几乎所有的工作和每个行业。
中国 AI 公司的长处和限制
彼得·H·迪亚曼迪斯(Peter H Diamandis)
开复,这个问题我可以从多个角度来讨论。首先,关于你的风险投资基金支持创新的方面,你的资产管理规模(AUM)目前达到了多少十亿美元?
李开复(Kai-Fu Lee)
我们管理约 30 亿美元。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
您已经投资了大约 30 亿美元,并一直是最活跃的 AI 投资者之一。我曾多次在中国拜访您,非常感谢您的盛情款待。现在,您角色转换成为企业家,同时在中美两国运营一家公司。您为什么会做出这样的选择?
李开复(Kai-Fu Lee)
这次是真的,对吧?但愿这只是我的一个梦。
李开复(Kai-Fu Lee)
从我上大学起,这便是我的梦想,但那时 AI 几乎还没有人知晓。虽然大家对其知之甚少,我却坚定地认为这是我需要追求的方向。后来,我们经历了多次 AI 的寒冬,难免有些失望,我不得不转而从事其他工作。
然而,大约在七、八年前,我们发现深度学习显然能够创造出许多价值。尽管如此,当时我并未真正相信它会发展为通用人工智能(AGI)。因此,我成为了一名投资者。在创新工场(Sinovation Ventures),我们孵化了 12 家 AI 独角兽公司。但这一次,生成式 AI 的发展速度令人惊叹。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
顺便说一下,我希望各位能感同身受。我要明确指出,到本十年末,将会有两类公司:充分利用 AI 的公司和已经倒闭的公司。 我坚信这是真实的。作者写了很多关于 AI 的书籍,其中我特别推荐他的《AI Superpowers》。自从那本书出版以来,全球 AI 竞赛发生了哪些最大的变化?现在是否正在进行一场 AI 军备竞赛?
李开复(Kai-Fu Lee)
情况虽如此,但不完全是这样,因为中国公司主要在中国市场上相互竞争,通常并不以其他市场为目标。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
我并不是指国家之间的问题,而是关注全球范围内公司之间的关系。
李开复(Kai-Fu Lee)
你指的是中国公司吗?那么它们有什么特点呢?在我的书《智能时代》中,我提到美国公司整体上更具突破性的创新能力,常常推出一些全新的事物。而中国公司则更擅长技术开发,执行力强,且注重细节和基础工作。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
用户界面。
李开复(Kai-Fu Lee)
无论是在用户界面还是在应用程序的开发上,美国几乎在移动设备和深度学习领域引领了所有的创新,但中国在许多这些美国发明的基础上创造了更多价值。现如今,我们进入了生成式 AI 时代,虽然这一技术同样源于美国的发明,但我们正处在一个技术在美国及全球范围内飞速演变的特殊时期。可以说,这仍然是一个探索阶段,美国应当继续保持领先地位。
然而,中国公司具备观察创新、进行自主创新,并在工程设计和解决方案提供方面有所突破的能力。我创办的公司零一万物就是在从事这样的工作。我们并不声称发明了所有技术,甚至大部分技术都非我们原创。我们从 OpenAI 等硅谷巨头公司学到了很多。然而,我们相信我们在构建上更加稳固,速度更快,执行力更强。例如,我提到 01.ai 目前是全球排名第三的模型公司,并在 LMSIS 和加州大学伯克利分校的模型评估中名列第六。
令硅谷朋友感到惊讶的不仅是我们的表现,而是我们仅用 300 万美元就完成了模型的训练。相比之下,GPT-4 的训练成本约为 8000 万到 1 亿美元,而据传 GPT-5 的训练费用高达 10 亿美元。因此,尽管我们认可规模的重要性,但通过卓越的精细工程设计,我们不需要花费 10 亿美元就能训练出一个出色的模型。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
因此,对于在场的观众来说,这真的很重要,因为世界上有许多地方无法获得比如 10 万个 H100 GPU。问题是,我能否在你最喜欢的国家,用少量的 GPU 建立一个业务或产品?我认为 GPU 的限制迫使人们去创新。对此你能谈谈看法吗?我认为这非常重要。我们在上次播客中也讨论到了这个话题。
李开复(Kai-Fu Lee)
是的,我认为作为一家中国公司,我们面临的挑战首先在于由于美国法规的限制, 我们获取 GPU 的难度很大。其次,中国公司的估值通常不如美国公司高,也就是说,我们的估值只是美国公司的一个部分。因此,在资金有限且难以获取 GPU 的情况下,我相信需求是创新之母。当我们仅有 2000 个 GPU 时,团队必须设法充分利用它们。
作为 CEO,我必须考虑如何优先分配资源。我们不仅需要加快训练速度,还要提升推理速度。我们的推理过程是通过识别整个过程中的瓶颈来设计的,包括将计算问题转化为内存问题、建立多层缓存和构建专门的推理引擎等措施。最终,我们的推理成本降低到每百万个标记仅需 10 美分,这仅仅是典型同类模型成本的三十分之一。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
它会朝哪个方向发展?
李开复(Kai-Fu Lee)
10 美分可以大幅降低开发应用的成本。因此,如果你想开发一个像 you.com 或 Perplexity 这样的应用,你可以选择支付给 OpenAI 每百万个 token 4.40 美元,或者使用我们的模型,只需每百万个 token 10 美分。而如果你购买我们的 API,仅需每百万个 token 14 美分。我们的定价非常透明。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
是的,Richard。
理查德·索契尔(Richard Socher)
杰文斯悖论是一个非常有趣的经济学悖论,其起源可以追溯到早期工业革命时期。当时,许多聪明的人尝试通过提高蒸汽机的效率来减少煤炭的使用量。他们认为,提高效率会减少对煤炭的需求。然而,实际结果却是,蒸汽机效率的提高反而推动了更广泛的应用,从而增加了煤炭的总需求。
我认为,这与当下正在经历的“智能技术的杰文斯悖论”十分相似。未来,我们将在更多领域使用智能技术,人人都会有自己的智能助手和医务助理,它们将全面了解我们的需求,而高昂的成本并不会限制其普及。
李开复(Kai-Fu Lee)
是的,我完全同意。我想澄清一下,我并不是说工作负载是固定的,而是说我们正在努力降低成本。我想表达的是,我们正在显著提升我们的工作能力。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
我想向在座各位提一个总结性的问题。我们中有些人有女儿、儿子,还有侄子或兄弟姐妹。对于那些正在收听这场讨论或通过其他途径获取信息的二十岁左右的年轻人,您有什么建议吗?基于您对当前人工智能发展的了解,对于那些刚刚开始他们学术和职业生涯的年轻人,您有什么建议?Prem?
普雷姆-阿卡拉朱(Prem Akkaraju)
我认为不应该浪费时间学习编程,因为我相信未来的关键语言将是英语。我觉得我们应该尽快掌握所有人工智能技术及其各种模式。一旦找到自己的热情点,我相信你会找到一个能够专注于帮助你实现真正目标的 AI。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
谢谢你,Prem……Richard?
理查德·索契尔(Richard Socher)
我不同意你的观点。我认为你仍然应该学习编程,因为这有助于你从根本上理解技术的工作原理,使其不再神秘。这样,你就能够进行自我修改和构建。此外,你需要将计算机科学和编程与另一项你感兴趣的事物结合,这样才能实际应用所学知识。最好在年轻时多学习数学、物理和科学等基础知识。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
我将打断你,因为我想让李开复做最后的总结。
李开复(Kai-Fu Lee)
我确实同意你们两位的看法。人们应该遵循自己的内心,不是吗?如果您的梦想是成为一名出色的程序员,并且相信自己能够做到,那么就应该听从 Richard 的建议,追求自己的梦想。如果您认为编程是赚取最多金钱的途径,那就按照 Prem 的意见,将编程作为实现财富目标的手段。
彼得·H·迪亚曼迪斯(Peter H Diamandis)
请大家为这三位杰出的首席执行官鼓掌。谢谢大家。