在当前生成式 AI 工具争相涌现的时代,如何真正帮助用户理解和处理信息,成为一个备受关注却鲜有突破的难题。而在近期的一场深度对话中,来自 Google Labs 的 Raiza Martin 和《纽约时报》畅销书作者 Steven Johnson 展示了一个令人耳目一新的解决方案:NotebookLM。
作为 Google Labs 旗下的一款个性化 AI 研究助手,NotebookLM 的独特之处不仅在于其强大的文档处理能力,更在于其将 AI 的分析能力转化为自然对话的创新尝试。在这场引人入胜的对话中,Raiza 和 Steven 不仅详细阐述了产品的技术突破,更深入探讨了 AI 如何通过拟人化的方式帮助用户更好地理解和吸收信息。
特别值得注意的是,在当前大多数 AI 工具着重于通用性处理的背景下,NotebookLM 选择了一条差异化的道路:专注于用户提供的特定资源,通过深度理解和个性化呈现,为用户创造真正的价值。这种方式不仅体现了对 AI 应用本质的深刻思考,更展现了一种全新的人机交互范式。
这场对话不仅是对一款产品的介绍,更是对 AI 如何真正服务于人类认知需求的深度探索。在 AI 工具同质化严重的今天,NotebookLM 的创新实践或许为整个行业提供了一个值得借鉴的新方向。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
对话的核心观点如下:
- Notebook LM 的创新:Notebook LM,作为 Google Labs 的个性化 AI 研究助手,通过其叙述能力,将数据和信息以引人入胜的方式呈现,挑战了 AI 仅作为数据处理工具的传统观念。
- 技术与人类互动:史蒂文·约翰逊和蕾扎·马丁强调了 Notebook LM 如何通过音频概览功能,增强了人类与技术的互动,提供了一种新的学习和理解信息的方式。
- AI 的个性化与安全性:讨论了 Notebook LM 如何处理个性化数据,确保用户隐私和数据安全,同时强调了 AI 在处理敏感和危险内容时的挑战。
- AI 在内容创作中的角色:探讨了 AI 在内容创作中的潜力和限制,包括其在生成播客、文本和未来可能的视频内容中的应用,以及 AI 在捕捉人类情感和创造性思维方面的局限性。
- AI 与人类智慧的结合:强调了 AI 作为工具的潜力,它能够辅助人类进行更深入的思考和创作,尤其是在处理复杂和长期的项目时。
- AI 的局限性与人类的独特性:史蒂文·约翰逊提出了 AI 在构思和开发长远构思方面的局限性,认为某些创作元素,如书籍的整体构思,可能永远无法被 AI 完全捕捉,保持了人类在创造性思维中的独特地位。
NotebookLM 的起源
汉娜·福莱(Hannah Fry)
今天,我们邀请了两位深度参与 Notebook LM 项目撰写的嘉宾。
他们是来自旧金山的 Steven Johnson,Notebook LM 的主编,同时也是《纽约时报》畅销书的作者;以及来自加州的 Raiza Martin,她是 Notebook LM 的高级产品经理,隶属 Google Labs 的人工智能团队。欢迎两位参加我们的播客。首先,我想谈谈大家都关注的一个功能,就是音频概览。据我所知,你们准备了一段小片段要放给我们。
史蒂文·约翰逊(Steven Johnson)
好的,我们来播放这段片段。我觉得你会喜欢的,Hannah。
AI 生成声音
欢迎回来,大家好。准备好进行一次深入的探讨了吗?今天,我们将深入到显微镜级别的细节。没错,想象一下那些微小的水滴,比如你在刚洗过的车上看到的那种水珠。试想一下水滴黏附在飞机机翼上的情景。在喷洒农药时,液滴的行为对于许多重要事项都至关重要,比如保障飞行器的安全性,提升农业生产效率。我们今天要进行一些严谨的深入研究。
汉娜·福莱(Hannah Fry)
这就是我的论文……我的博士论文的首页……真是了不起……坦白说,除了大量复杂的公式之外,几乎没有什么实质性的内容……嗯,我有很多想要评论的……首先,他们把它描述得比实际更有趣。
史蒂文·约翰逊(Steven Johnson)
这就是关键所在。
汉娜·福莱(Hannah Fry)
不过,从对话的互动来看,这两种声音相互补充,使表达更加完整,交流过程显得既流畅又自然。
史蒂文·约翰逊(Steven Johnson)
设想一下,如果你现在正在进行论文答辩,你可以播放一个播客,让它自动进行下去。我想,如果你当时能使用这样的工具,肯定会轻松很多。
汉娜·福莱(Hannah Fry)
Raiza,你对人们对此事的反应感到惊讶吗?这件事确实已经被相当广泛地接受了,不是吗?
蕾扎·马丁(Raiza Martin)
让我感到最惊讶且极其高兴的是,人们使用它的方式。虽然我曾设想过他们可能会怎么使用,但当这样一个令人激动的产品推出后,最美妙的是能够看到一个全新的世界。人们尝试各种事情,从搞笑、娱乐到鼓舞人心乃至真正有意义的活动。这实在是太了不起了。实际上,我每天可能会花三分之一的时间沉浸其中。
汉娜·福莱(Hannah Fry)
你是否创建了一个 Discord 服务器,供大家分享使用方式?目前都在讨论些什么?
史蒂文·约翰逊(Steven Johnson)
这确实是一个有趣的例子,基于你的论文来操作。人们会将简历和履历提交到这个工具,几乎就像是一个小型的宣传平台。若感到对自己的情况沮丧,可以收听两位非常热情的主持人之间长达 10 分钟的音频对话。他们会说:“哇哦,斯蒂芬在他的职业生涯中成就卓越,令人印象深刻。”
不过,更严肃的版本同样有趣,人们可以利用这个工具改进他们正在进行的项目。 例如,你可以上传自己写的短篇故事,并请求建设性的批评。你会听到人们讨论你的作品,他们善于指出有趣的情节转折或特别吸引人的角色。这个工具类似于一个小型焦点小组,用于你的工作项目,实在令人赞叹。
汉娜·福莱(Hannah Fry)
我认为,当人们真正谈论这件事情时,这种交流几乎会带来某种额外的客观性,对吗?
蕾扎·马丁(Raiza Martin)
我认为这真的令人惊讶,因为仔细想想,许多内容或生成内容以文本形式呈现其实并不新鲜。比如,如果我上传我的简历,然后让一个大型语言模型生成一段总结,比如“这是 Raiza 的职业生涯概述。”在两年前,这种能力还是相当新奇的,令人感到兴奋。但我认为,加入接近人类声音的新层次或新形式,完全改变了人与之互动的方式。
我个人把这种技术称为“拟人化”,因为它会让你感觉仿佛在和自己对话,从而产生不同的共鸣。 而且当我第一次听自己的简历时,即使对内容已经很熟悉,仍然感受到内心的激动和惊叹。我想这就是这种新形式的魅力所在。
史蒂文·约翰逊(Steven Johnson)
我认为另一个关键点是,人类通过对话学习和交流信息已有几万年的历史,而通过阅读纸上结构化文本的方式学习已有五百年,通过屏幕上的结构化文本学习则有三十年。因此,当你唤起真实的人类对话那种感觉时,它触动了我们内心深处的祖先本能。我想这也是为什么人们在第一次听到它时会感到兴奋的原因之一。
汉娜·福莱(Hannah Fry)
我觉得你选择两位主持人而不是让一个人单独讲话,这一点很有趣,似乎支持了你的观点,Steven。
史蒂文·约翰逊(Steven Johnson)
是的,这确实是一种非常不同的格式。当只有一个人参与时,对话更像是文本转变为语音。我们以前曾听过这种由文本转换成的语音内容,效果非常好。我们有兴趣探索其他格式来实现这种功能。然而,要使对话自然顺畅,需要深入研究并掌握许多细微之处。没有人愿意听两个机器人对话,因为那会在短短 30 秒后让人感到厌烦。你必须掌握极其微妙且独特的对话技巧才能使其真正有效。
汉娜·福莱(Hannah Fry)
Raiza,为了使其更符合您所提到的人类风格,我稍后会回过头来讨论这些特性和音频的概述。不过我还想先探讨一下 Notebook LM 的起源。这个概念是如何产生的呢,Raiza?
蕾扎·马丁(Raiza Martin)
我觉得许多人之所以觉得 Notebook LM 是个新产品,主要是因为音频概览功能的加入。我们迎来了大量的新用户,他们都感到惊讶,并纷纷询问这是什么东西,是不是 Google 推出的新产品。
然而,实际上我们在 Notebook LM 上已经工作了一年多。我们首次在去年的 Google I.O. 大会上以 Project Tailwind 的名义宣布了这一项目。在此之前,我们一直在 Google Labs 内部孵化这个项目。这也是我与 Steven 认识的原因。他是后来加入的。那么,Steven,那时候你的职位是什么?
史蒂文·约翰逊(Steven Johnson)
我曾是访问学者,后来成为了编辑主任。
蕾扎·马丁(Raiza Martin)
他被提拔了。当时,Google Labs 的负责人兼副总裁 Josh Woodward 告诉我,他希望我能够创立一个新的 AI 业务。我心里想,这究竟需要具备哪些条件才能实现?可以说,我早期灵感之一就是观察 Steven 的工作。说实话,就像想弄明白他是如何做到这一切的。我想,如果他能让别人也具备这种能力,那简直就像拥有真正的超能力。
史蒂文·约翰逊(Steven Johnson)
情况比较复杂……对我来说,这是很有趣的,因为我有丰富的写书经验。Josh 读过我的一些书,也看过一些其他的……我主要撰写关于如何使用软件帮助思考、发展想法和进行研究的思维工具书。这发生在 2022 年年中,当时大语言模型备受关注。
于是,他联系我说:“嘿,你有没有兴趣加入 Google,帮助开发一个基于大语言模型的工具,用来学习和组织思想?” 我与 Raiza 一见如故,记得在 Google 工作的第二天我们就相遇了。我们都非常热情,决定共同创作一些新的东西。
汉娜·福莱(Hannah Fry)
在大语言模型成为热门话题的时期,这种现象是如何产生的?在那些早期的对话中,您如何看待这种现象与仅仅在 Gemini 上上传一个文档并让它为您总结之间的根本区别?
史蒂文·约翰逊(Steven Johnson)
从一开始,我们就称之为信息源库,这是我们的描述方式。你可以提供想要使用的信息源,这可能是你正在撰写的故事、研究的书籍、日记,或者正处理的营销文档。将这些信息上传到模型中,会创建一个在你关注的信息领域中具有专业知识的个性化 AI。
在 2022 年年中之前,没有人提到过这种功能。因此,这是我们构建的第一个功能。比如说,如果我们上传了我其中一本书的一部分,就可以和模型进行简单的对话。与现在基于文本或音频的内容完全不同,你可以稍微体验一下,感受与开放性模型对话的不同——不仅仅利用其一般知识,而是拥有个性化的知识。这非常好,因为它还减少了幻觉,使其更加真实可靠。
你可以验证事实,返回并查看原始的源材料。 这是整个 Notebook LM 体验的重要部分。这就是它的开端,我们所做的一切都建立在这个平台上。音频概述只是基于这种认识:我提供我的来源,然后将其转变为其他形式。在这个例子中,就是一次音频对话。
汉娜·福莱(Hannah Fry)
关键的区别在于,它非常专注于你所提供的资源和相关内容,而不是像你提到的那种通用模型。
蕾扎·马丁(Raiza Martin)
我的意思是,我们所观察到的情况是,这种新范式由于其新颖性,刚开始可能会有些困难。你需要和 AI 进行互动,提供你自己的数据。我认为一个需要克服的障碍是让人们相信这件事情的价值。
不过,一旦有人跨越了这个障碍,它就会变得非常有用。因为每天我和 Steven,以及全世界使用计算机工作的人们,我们都在处理非常具体的信息集和共享的上下文。例如,我们进行研究,然后整合研究结果以提取自己的见解。我认为这正是 Notebook 大语言模型自始至终的独特之处。
汉娜·福莱(Hannah Fry)
正如你所说,其中的文本元素确实包括了这些内容,而播客部分是最引人注目的,对吗?
蕾扎·马丁(Raiza Martin)
在 Notebook LM 中,播客功能是我们的最新开发,但实际上我们在一年前就已推出了这个功能,最初主要是为聊天设计的。你可以使用自己的素材与系统对话,系统会自动回顾已使用过的内容片段。
汉娜·福莱(Hannah Fry)
Steven,你能举一些日常生活中的例子,说明人们是如何使用这些东西的吗?
史蒂文·约翰逊(Steven Johnson)
我们发现产品的文本功能使用频率极高。这项功能表现出色,可以解答大量文档中的任何问题。在文本版本中,用户还可以获得引用等信息,极具学术性。每个模型提供的事实旁边都有一个内联脚注,用户可以直接查看该脚注来阅读原文。这些功能被作家和记者广泛使用,并且与我参与的项目相关。
我有一个笔记本,里面记录了多年来我所读书籍中的成千上万的引言和我自己写过的书的内容。这个笔记本基本上以 AI 形式捕捉了我脑中的想法,因此当我研究新想法时,我会打开这个笔记本,询问:“这个想法怎么样?”AI 则会回答:“Steven,你大约在七年前读过一些相关的内容。看看这段。”对于我来说,这就像记忆得到了真实的延伸。
此外,我想说明的是,我们不会用这些信息来训练模型。因此,你的信息是安全和私密的,不会被用于模型训练或被他人利用。你可以将私人信息存入其中,当你将多年的日记输入这样的语言模型时,会获得一些惊人的洞见。你可以将这些信息转化为音频摘要,听由 AI 代表的两个人讨论有关你自己的事情,或者简单地询问:“我去年五月在想些什么?”就能得到当时所有事情的概述。20 秒后,你将得到一份自己生活的精彩文档。
汉娜·福莱(Hannah Fry)
此外,您能否就个人日志方面提供一些见解呢?
蕾扎·马丁(Raiza Martin)
是的,我认为这很有效,因为我曾经这样使用过。上传数据后,我喜欢问的问题之一是:我每周记录自己的日志,想知道随着时间的推移,我有多大变化。这真的令人惊叹。它能够发现一些我自己无法察觉的有趣细节。例如,它指出:“嘿,你知道吗?你倾向于将很多负面情绪与某个特定话题联系在一起,而把大量正面情绪与另一个话题关联。”非常有趣。
针对你之前问到的日常使用场景,我发现人们越来越多地使用 AI 来辅助日常工作。比如,销售团队经常用它来分享知识。这是合理的,因为技术文档通常既多又复杂,且不断更新,所以有一个 AI 助手实在不错。我觉得这与许多现有的 AI 系统的工作方式有所不同。我在使用时会利用所有可用资源,并详细地编写提示词。
首先,我会说明你扮演的角色、我们正在做的事情以及相关的文件。我认为对于 Notebook LM 来说,它稍微简化了这些过程。这是一个项目空间,它明白你的话题,你可以持续进行对话。它最多能处理 2500 万个词,对于上下文处理能力来说非常强大。
史蒂文·约翰逊(Steven Johnson)
我认为一个有趣且可能独特的地方在于,关于这个产品有效性的问题,许多并不是技术层面的,而是与编辑风格相关。例如,什么样的答案才是合适的?当你听到一个有效的音频概述时,它应该是什么风格?这些对话的基本风格有哪些?应该达到怎样的水平?这些问题更多地关乎语言和风格,而非技术问题。这反映了大语言模型时代的一个令人赞叹的现实:许多过去主要关注编程正确性的问题,如今更多涉及其修辞方面。
汉娜·福莱(Hannah Fry)
事实上,我确实对风格很感兴趣。你为什么决定制作音频评论节目?是什么激发了你的灵感?说实话,现在播客已经相当多了。
史蒂文·约翰逊(Steven Johnson)
音频概述的真实起源是展示实验室内部高效运作的一个绝佳例子。实验室中一个小团队聚焦于开发音频版本,并不以与播客竞争为目标,而是因为有些内容制作播客在经济上不划算。即使通过自动生成音频的方式,仅有少数几个人对此感兴趣,也难以满足大规模的需求。
我们希望制作一个根据团队每周会议进行回顾的播客,这并非商业项目。Hannah,虽然没有人会让你主持这样的播客,但它可能对团队有帮助。今年三、四月间,Raiza 和我首次接触到了这项技术。最初听到音频概述的人惊讶地表示:“哇,我刚刚听到的是什么?太棒了。”
我们很早就意识到,Notebook LM 的其中一个使命是构建帮助人们理解信息的工具。 突然之间,我们意识到,通过聆听聪明人之间的对话,能更好地帮助人们理解、记住信息并集中注意力。夏季时,我们在 Google 内部发布了一个版本供员工测试。我们感受到大家对这一成果的热情,虽然影响力超出了预期,但我们清楚地知道,我们发现了一项重要的创新。
受控的惊喜:大语言模型出色的预测功能
汉娜·福莱(Hannah Fry)
我记得在上一季,我们听过 WaveNet 的演示,它确实是最早用于生成模拟人类语音的 AI 模型之一。当时我感到非常震撼。然而,从那时起,技术显然取得了不少进步,这些进步促使诸如 Audio Overview 这样的技术得以实现。
蕾扎·马丁(Raiza Martin)
我认为,Notebook LM 的底层模型是 Gemini 1.5 Pro。对我而言,它确实生成了非常出色的内容。我们所使用的语音模型和音频模型本身就是一种突破。我想你提到的写实性,指的正是我们所听到的那种接近人声的声音。结合我们所采用的方法,Steven 还有许多可以补充的内容。我们会更加关注内容的编辑,以创造出既实用又有趣的内容。
史蒂文·约翰逊(Steven Johnson)
这相当引人入胜,确实,这正好是一个很好的切入点,可以谈到我想说的关于趣味性的问题。Simon 是音频部门的负责人之一,有时他会用一句口号来概括音频,那就是让任何事情都变得有趣。所以,无论是什么,比如让你的论文变得有趣,我相信它是有趣的。没错,这是三项不同技术或突破融合在一起创造出奇妙效果的一个很好的例子。
Gemini 本身也能够以这种方式处理文本,特别擅长从你提供的材料中挖掘出有趣的事实、想法或故事。我一直在这样做。比如,我上传一些新材料,然后让它告诉我其中最有趣的点,只用文本形式。计算机以前无法做到这一点,你不能用 “Command F” 搜索趣味性,这不是一个可行的搜索查询。
汉娜·福莱(Hannah Fry)
你是如何定义它的?我的意思是,这具体是什么意思?
史蒂文·约翰逊(Steven Johnson)
我认为这源于大语言模型背后的基本理念,即它们具有预测功能。它们相当于在给定一段文字后,预测接下来会发生什么。而所谓的“趣味性”,是一种受控的惊喜:人们预期某种结果,但实际上却得到了超出预期的新信息。 由于语言模型的基本结构以预测为核心,它们在处理所有信息时,会根据训练数据判断哪些信息是新的或挑战已有预期的。因此,在这种情况下,它可能会表现得非常出色。
Gemini 的一个基本特征正是如此,对吧?节目的主持人被要求寻找有趣的材料,并以吸引人的方式呈现给用户。这是模型的重要功能之一。另一个有趣的方面是,系统在生成的脚本中加入了一些噪声,以增加所谓的语言不流利特征,如常见的口吃、填充词和插话等。这些被发现是必要的,因为没有这些噪声,声音会显得过于机械化。
最后,关于音频的一个因素是声线本身。他们做了一些微妙的调整,例如,在英语中,如果说话者不太确定自己正在说的内容,他们可能会略微提高音调;或者为了强调,他们会放慢语速。这些是我们本能地会做的事情,但从未意识到,而直到现在,还没有任何计算机能够实现这种效果。这正是驱动这一切的部分,也是当今语言、语音和音频模型的基础,而这种能力在一年前还不存在。
汉娜·福莱(Hannah Fry)
这就是声音调节,对吧?就像你说的,我记得多年前在 BBC 工作时,有人教我们如何让内容更吸引人。那时,他们会给我们一本《小熊维尼》的书让我们朗读。然后,他们会让我们像新闻播报员那样读,你会发现自己读得非常平淡。接着,他们会要求用讲故事给孩子听的语气去读。正如你所说的,Steven,你会发现自己的声音有时会上扬,有时会低沉。你的语调和语速全然改变,而你已将这些因素融会贯通。我想知道,你是如何做到的?
史蒂文·约翰逊(Steven Johnson)
是的,我们应该不断进步。我需要特别强调一下:我们并没有开发这个语音模型。这款模型是由 Google 内部的工程师们构建的,我们仅仅是继承了这项技术,并持续扩展其应用范围,以展示其潜在的用途。然而,我们并没有参与模型的开发。
有人对这个模型有一些疑问,其中一个问题是,目前它仅支持英语。大家都热切期望它能支持多种语言,我们也希望能够支持多种语言,因为我们的观众遍布全球。然而,这并不是一件简单的事。因为每种语言都有不同的语调和微妙的对话习惯,不能仅仅把文字转换为西班牙语后就按下播放键。
蕾扎·马丁(Raiza Martin)
我想补充一下,DeepMind 最近确实发表了一篇关于音频模型的博客。这篇文章介绍了音频模型的开发过程、参与研究和开发的团队成员,以及背后的研究论文。我认为如果有可能分享这篇文章,我们应该考虑这么做。
汉娜·福莱(Hannah Fry)
是的,当然。在操作这个系统时,一个特别突出的特点是它可以适应您提供的各种类型的数据。Steven,请问,您是如何设计这些流畅性问题的呢?那么,您又是如何避免让这个系统每次听起来像是在重复陈词滥调呢?Raiza?
蕾扎·马丁(Raiza Martin)
我认为在每次交流中,避免听上去像是在重复陈词滥调是很不容易的。这是因为要定义“有趣的内容”确实是一项艰巨的任务。当你听的内容足够多时,所谓的有趣内容往往会显得雷同。因此,在这次特别发布中,我们引入了一项改进,称为“向主持人传递便条”。用户可以为主持人提供一些建议,比如“请避免陈词滥调,深入探讨这个话题”,从而改变他们在讨论您提供内容时的方式。
汉娜·福莱(Hannah Fry)
我应该把这想象成有不同种类的旋钮,比如一个用来调整“古怪度”的旋钮,或者一个用于调整“历史事实”的旋钮吗?还是应该以其他方式理解这个呢?
史蒂文·约翰逊(Steven Johnson)
想象一下,我对一件事非常感兴趣:如果为每位主持人赋予不同的专注领域,会怎么样呢?目前,他们大多是可互换角色的,并没有明确的角色分工。一人负责引导对话,而我们随机参与其中。
但假如我们设定为一个新的场景:我是城市规划师,正在设计新的市中心广场,那么我希望其中一位主持人是环境保护人士,另一位是经济学家。这样,我们可以开展一场有意义的对话和辩论,他们将从不同的角度出发。多年来,我在书中多次提到,多样化的专业知识可以帮助人们更具创造力,也能做出更好的决策。这也是我们 2025 年发展蓝图中的重要内容之一。
汉娜·福莱(Hannah Fry)
将来我真的可以与这些主持人互动吗?比如说,我可以打断他们并参与到他们的谈话中吗?
史蒂文·约翰逊(Steven Johnson)
我们在 Google 开发者大会上展示并首次推出了这一功能。在展示中,他们用音频播客的形式呈现。实验室负责人 Josh Woodward 在演示中插话道:“嘿,能不能用篮球的比喻来解释物理?因为我的儿子正在听。”他们假装像接到观众电话一样答道:“好啊,那我们就用篮球的比喻来讲解一下。”这实际上是我们的目标之一。可以想象,我们非常期待向大家推出这个功能。
汉娜·福莱(Hannah Fry)
您描述的场景确实引人入胜。然而,我也担心会存在这样的风险:模型可能会从文本语料库中抓住某个细微的细节,并过分放大其重要性。毕竟,我们仍然处于大语言模型有时会出现幻觉的阶段,模型未必能够正确评估其报告内容中各部分的重要性。
史蒂文·约翰逊(Steven Johnson)
大约三周前,当我们进行定制功能测试时,Raiza 提到制作者注记中的某个功能。我上传了一篇几年前写的文章,要求他们用讽刺喜剧的风格对这篇文章进行尖锐的批评,因为他们需要表现得非常热情。
我刚上传文章,他们立刻回应质疑:“Johnson 到底出了什么问题?他有认真研究过这篇文章吗?”不过,他们的某些批评有些偏离,即便我对自己的文章不敏感,但这些批评确实有些误解。我无法确定这是因为我让他们的批评过于极端,还是他们有时像人类一样感到困惑或误解,导致看法出现偏差。
汉娜·福莱(Hannah Fry)
关于幽默,你觉得这些例子有趣吗?它们有没有让你笑过?
蕾扎·马丁(Raiza Martin)
实际上,我会说,他们通过智慧、幽默以及对他人的探索,给我带来了很多欢乐。因为我自己并不认为能独自想出这些有趣的情景。只是看看外界的人们用这项技术尝试了些什么,真的很有趣。有人在 Notebook.LM 上上传了一个文档,里面只有“poop”和“fart”两个词。当我看到这个并且那个人在 Twitter 上分享时,我心想,这到底是怎么回事呢?但这实在太搞笑了,真的很精彩。幽默之处在于,它确实能引发大笑,同时又促使人们深入思考,比如,这到底意味着什么?
蕾扎·马丁(Raiza Martin)
这听起来有些奇怪,却又引人深思。难道我真的在听这个?看来确实如此,真是太令人惊喜了。
汉娜·福莱(Hannah Fry)
某种程度上,这一切显得有些滑稽,因为 AI 似乎没有意识到它所面临的挑战有多么令人发笑。
蕾扎·马丁(Raiza Martin)
在那件事上,他们似乎提到有人试图让我们胡言乱语。我想,也许是这样的。
汉娜·福莱(Hannah Fry)
我认为,传统幽默的形式不仅仅是因为对 AI 的无知而引发笑声,很多时候还与紧张情绪的积累和释放有关。这类似于做预测,不是吗?你预测一句话会如何发展,但它最终却朝另一个方向发展。你认为未来 AI 能达到这种程度吗?因为我觉得目前它在这方面并不是特别擅长。
史蒂文·约翰逊(Steven Johnson)
在刚开始的几天里,我就有这样的感觉,那些系统刚一问世时,我曾写过一些简单的文章,指出它们其实不太擅长幽默。虽然它们可以调侃,看起来很有趣,但无法真正讲出令人发笑的笑话或展现真正的幽默效果。
然而,正如 Riza 所说,用户确实能够在某种程度上激发它们变得真正有趣。它们需要置身于一个幽默的情境中,例如“臭屁文件”这种滑稽的例子。还有另一例子是一篇看似完全合理的科学论文,包含图表和数据脚注等学术要素,但内容每个字都是“鸡”,连脚注和图表都是由“鸡”字组成。
因此,人们给它们提供这样的情境,而这正是我第一次被逗乐的时候。这些系统只是混合了一些有趣的笑话,并在困惑中制造幽默。因此,需要通过不同寻常的方式,在奇特的情境下激发它们的幽默。
汉娜·福莱(Hannah Fry)
你提到一个我想深入探讨的问题。有些人批评这项技术的批评者,认为它对播客界构成了威胁,担心市场上会充斥大量 AI 生成质量低下的播客。对此,你有什么回应吗?
蕾扎·马丁(Raiza Martin)
最有趣且复杂的是,我们发现人们开始创造一些最初并没有专属播客的内容。这些内容其实有点琐碎,但确实是一些不会有人为其制作完整节目的题材。我觉得这很有趣。我们把创作的权力交给了人们,使他们能够创作出自己想要的内容,而这些内容通常是他们以前无法触及的。
关于所谓低质量内容的另一个方面,我想指出的是,根据我在互联网上,尤其是人们在 Discord 上发布的内容来看,其质量相当高。第三点是,所有由 Notebook LM 生成的内容都带有水印。在开发能够生成自然人声输出的技术时,我们采取了非常负责任和谨慎的态度,以确保所有内容都清晰标识有水印。
史蒂文·约翰逊(Steven Johnson)
在这个问题中,你似乎涉及到了一个有趣的方面,即我们对这些被拟人化的实体进行了人性化处理。它们听起来像人类,并且我们在很多方面使它们更具人性化。有趣的是,在产品的音频概述之前,我们所采用的哲学实际上是相反的。在 Notebook.LM 的文本版本中,它并不刻意让自己听起来像人类。它更侧重于事实性,并在某种程度上不试图成为你的朋友。
汉娜·福莱(Hannah Fry)
是的,这可以说是非常冷了。
史蒂文·约翰逊(Steven Johnson)
是的,天气几乎要变冷了。这正是我们的目标,因为这与我们房子的风格相符。然而,声音无法实现这种效果。我们第一次听到这些声音时就明白,这种感觉是无法通过对话传达的,同时也不想让声音显得过于拟人化。这样的声音在现实生活中,是人耳无法承受的。
汉娜·福莱(Hannah Fry)
不过,我确实想了解一下,因为正如您所说,您在这方面有不同的倾向。我指的是,在我与 Google DeepMind 的许多其他交流中,他们建议尽量避免将 AI 拟人化,不应该将其视为人类。比如说,在整个对话中,我们一直称呼播客主持人为“他们”……我想知道,将这些角色拟人化是否存在潜在的风险或隐忧?
蕾扎·马丁(Raiza Martin)
我认为,通过某种程度的拟人化,比如增加细节描述,让信息更像人类可以更易于接受和使用。而实际上,如果我们认为这些方法具有足够的价值,可能不应该抵制它们。我真正的想法是,我注意到,也许你在 TikTok 上也看到了,许多人上传他们的学习资料,并感叹道:哇,我学习得更快了。
想到这些案例时,我会想,这些人受到了什么伤害吗?真正的风险是什么?我并不是说这显然对社会有益。我真正思考的是,他们在这种体验中失去了什么。我认为,这更多是关于你通过聆听而非阅读可能失去的东西,而不仅仅是系统或设备的拟人化。也许就是这样。
史蒂文·约翰逊(Steven Johnson)
确实,这是一个很好的观点,Raiza。我想补充一点,通过对话、提出后续问题以及关注复杂工作内容中的关键部分,实际上是一种非常有效的学习和理解方式。然而,大多数人在深入探讨一本书并希望真正与其互动时,并没有机会与书的作者或能够解读其复杂性的专家导师进行交流。不过,借助 AI,这种探索性的对话成为了可能。
隐私安全和潜在风险
汉娜·福莱(Hannah Fry)
这听起来像是一种更传统的探索方式,正如你所描述的那样。不过我在想,在这种情况下,人们可能无法直接接触到作者。那么,在什么情况下,可以防止某人上传一本书,而你实际上并不希望他们与作者对话呢?我在这里想到的是像《我的奋斗》或《无政府主义者的食谱》这样的书。
史蒂文·约翰逊(Steven Johnson)
Google 和 DeepMind 投入大量时间开发基础安全层,可以检测到明显的冒犯或危险内容。更棘手的是政治方面的问题。如果你上传的内容属于常规政治讨论,但可能偏左或偏右,平台该如何应对?因此,我们特别强调,如果检测到政治倾向,应持这样的态度:我们不偏向任何一方。我们只讨论文件所述内容,而非支持或批评某种观点。我们认为这是应对复杂政治立场的最佳折中方案。
蕾扎·马丁(Raiza Martin)
我认为在安全问题和审查问题之间有一个有趣的界限。在早期阶段,我们常常会遇到安全过滤器仍不够成熟的情况,人们会研究一些具有挑战性的主题,例如历史上充满暴力和种族歧视的事件。这些都是相当有争议的话题。
我认为,仅仅因为这些原因就创建一个不分青红皂白地阻止内容的工具是不妥当的,我们还应考虑用户的意图,以防用户创造出有害内容。 同时,我们的大多数用户,尤其是在初期阶段,都是学习者和教育者。如果你在学习历史,肯定会遇到安全过滤器的干扰。
汉娜·福莱(Hannah Fry)
个人数据的问题一直备受关注。在这一讨论中,这是一个焦点,特别是人们担心上传的文档可能会在未来的模型版本中被利用。对此,如您所说,在 Notebook LM 中,我们该如何确保您上传的信息保持保密呢?
史蒂文·约翰逊(Steven Johnson)
这正是一个解释的重要概念的机会,即模型的上下文窗口。上下文窗口类似于语言模型的短期记忆,用于暂时存储当前会话中需要的信息。长期记忆则源于模型的训练数据,相当于对世界的常识性知识。上下文是您与模型互动时所提供的信息。
上下文窗口中的所有信息都是暂时的,一旦会话结束,这些内容就会从模型的记忆中消除。这意味着这些信息是私密的,因为我们不会用您的信息来训练模型,仅将其存入模型的短期记忆中以回答您的问题。在结束会话后,模型会完全忘记您提供过的任何信息。
汉娜·福莱(Hannah Fry)
关于这个产品的未来,我认为它依然相当年轻。你希望在其上增加哪些功能?
蕾扎·马丁(Raiza Martin)
我认为,如今大家对音频功能表现出极大的兴趣。因此,我相信我们可以自信地将其纳入未来的规划中。之前我提到过,将会增加更多的控制选项、声音、角色和语言。我觉得这对我们来说是一个令人兴奋的前景。
史蒂文·约翰逊(Steven Johnson)
我非常兴奋,因为我们才刚刚开始探索一个新的领域。在这个领域中,有许多工具可以用来提问并理解信息的解读。那么,如果将这些资源应用于写作会怎样呢?在一个以来源为基础的环境中,我们又该如何进行写作呢?作为一名作家,我认为这将是一次令人惊叹的发展。因此,我们正在尝试一些非常酷的做法。
汉娜·福莱(Hannah Fry)
我也在考虑不同的领域……我的意思是,你已经涉足了音频领域,可以想象你可能会在某个时刻进入视频领域。
蕾扎·马丁(Raiza Martin)
我们目前有一个关于视频的有趣创意,虽然还没有讨论到生成式视频。但可以设想,如果你能够实现一些基本功能,比如上传包含图表、示意图的幻灯片和论文的 PDF,仅仅使用现有的内容。而 Notebook LM 在这方面已经表现得非常出色,因为我们的引用模型可以准确知道答案的每个部分来源于哪里。我们利用它来生成音频概述和文本答案。我认为,基于你自己的内容生成短视频,并不是一个很大的跨越。
汉娜·福莱(Hannah Fry)
我要说的很简单,Steven 经常把这称为一种工具,用于制作其他人不愿制作的播客,对吧?但我想这里的重点是,你并不是想要取代所有的播客。可能有些事情是你预期 Notebook LM 永远无法做到的。
史蒂文·约翰逊(Steven Johnson)
人们倾向于喜欢听两位真人围绕某个话题展开对话。如果有足够的经济动力或热情来制作一个相关的播客,那么真人对话将是首选。这说明存在一个广阔且尚未开发的领域,比如目前还没有人制作关于家庭阿拉斯加旅行的播客,因为这样做并不需要租用录音棚。现在,你只需将每个人的旅行日记和照片上传到 Notebook LM,就可以创建一个关于家庭旅行的播客。因此,我认为这是我们刚刚开始探索的巨大潜力领域。
汉娜·福莱(Hannah Fry)
您认为在内容创作中是否存在一些元素是 AI 难以捕捉到,或者可能永远无法捕捉到的?
史蒂文·约翰逊(Steven Johnson)
我们正在研究的问题是,这些模型在思考和开发长远构思方面具备多大的能力。 我对写书这个想法非常感兴趣。为一本书构思是个极为漫长的过程,需要考虑如何在 300 页中呈现内容,以及如何处理复杂的情节和叙述。
目前,语言模型在整体处理这样的任务时完全无法胜任。它们可以协助完成某些小部分,比如布置场景或确定叙述形式,但实际上无法构思完整的过程。到目前为止,这仍然是人类独有的能力。我认为这种情况将会持续很长时间,甚至可能永远如此,但谁知道最终的发展会如何呢?
汉娜·福莱(Hannah Fry)
要兼顾全局视野与细节。
史蒂文·约翰逊(Steven Johnson)
我认为这只是一个开始。虽然有一些令人期待的迹象,但目前作家仍然可以放心地继续他们的创作。
汉娜·福莱(Hannah Fry)
尽管写作为生可能是最痛苦的职业之一,但我目前正在尝试写一本书,因此希望能尽快取得进展。非常感谢大家的参与,这次讨论真的很有趣。感谢你们的支持。
史蒂文·约翰逊(Steven Johnson)
感谢您的款待。
蕾扎·马丁(Raiza Martin)
感谢您的邀请。