近期,Suno 的联合创始人兼 CEO Mikey Schulman 参与了一期《No Priors》的播客采访,在播客中,他分享了跨学科的工作经历、Suno 的创立故事、音乐创作的乐趣和社交性、以及 Suno 的商业模式和未来前景。
5 月 21 日,Suno AI 宣布获得 1.25 亿美元的新一轮融资,投资方包括光速创投、Nat Friedman、Daniel Gross、Matrix 和 Founder Collective。Suno 表示,这笔资金将用于加速产品开发,并扩展其音乐制作人、音乐爱好者和技术人员团队。
目前,已有 1000 万人使用 Suno 的 AI 音乐工具,免费用户每月最多可以使用 Suno 生成 10 首歌曲,付费订阅 Pro 计划和 Premier 计划的用户每月最多可以分别生成 500 首歌曲或 2000 首歌曲。
Mikey Schulman 的核心观点包括:
- 基于 Suno 团队文本处理经验的背景,Suno 采用的是 Transformer 架构,真正创新的地方是如何对音频进行分词;
- 在音乐领域,基准测试的准确度没那么重要,审美很重要,尤其在早期阶段;
- 模型不应该预设了解音乐理论。AI 不仅能够创造出我们从未听过的声音,而且通过将这些工具交到人们手中,我们可以解锁新的歌曲结构、和弦变化,结合不同的风格,创造出在声音和旋律上都全新的作品。 我相信这将能够真正吸引人们的持续兴趣;
- 我们的目标是改变全球人们与音乐互动的方式,未来我们不会再去分创作和消费活动。 未来 5 年里,如果我们能够让十亿人更深入地参与到我们尚未接触到的音乐体验模式中,音乐的未来,无论是在经济价值还是人们投入的时间上,都将会有显著的增长;
- 让音乐走出 TikTok 的模式,让我们能够一次性地听超过 30 秒的音乐。
以下是本次播客的完整翻译,我们做了不改变原意的编辑。
主持人 Sarah(@Saranormous),Elad(@eladgil)
Sarah
你从小热爱音乐,在乐队中演奏,那么你是如何一步步走向哈佛,成为物理博士,并创立了几家 AI 公司的呢?
Mikey Schulman
我的经历确实有点曲折。实际上,我从四岁开始弹钢琴,在成长过程中我参加了许多乐队。但说实话,我的音乐才华并不出众。所以,对我来说明智的选择是追求我相对更擅长的领域,那就是物理学。我上了大学,后来进入研究生院攻读物理学博士,专注于量子计算研究。也许在你的下一个播客中,我可以分享为什么量子计算不是一个理想的职业选择。
Sarah
你原本以为自己会做什么?你以为自己会成为一个理论物理学家或者学术界人士吗?
Mikey Schulman
哦,天啊,我从来没有一个明确的职业规划。所以我当时并没有明确的计划要做什么,也不确定不要做什么,但可以确定的是,我并不特别擅长物理。
我认为自己取得了一个还算成功的博士学位,并不是因为我对物理很在行。我研究的量子力学理论早在 50 年代就已经被阐释清楚了。其中有许多复杂的低温微波工程技术,这对实际进行研究至关重要。幸运的是,相较于其他物理学家,我在这方面做得比较好。所以,可以说我做的是一种介于两个学科之间的工作。
我享受其中的每一刻,即便我知道,长大后我会成为什么,或者从那个阶段走出来我会成为什么。我和我的博士导师关系依然很亲近,我现在住的地方离我以前的实验室只有步行的距离。你知道,漫步在马萨诸塞州的剑桥,总是很有趣。但是,尽管量子计算很酷,它并不是我想要的生活。
我偶然地发现了一家名为 Kentro 的公司,并非是我创立的。他们是当地的公司,我遇见了他们,当时公司大约有 10 个人,我见到了所有人,我非常喜欢他们。我决定加入他们。我被聘为软件工程师,我认为自己在加入公司的时间上非常幸运。大约在我加入一个月后,机器学习的机会出现了。
在 2014 年,拥有物理学博士学位的我,就成了机器学习工程师的合适人选。我抓住了这个机会,学到了很多,团队也构建了一些有趣的产品。嗯,我们在 2018 年被 S&P Global 收购,收购后我们也追求了很多有趣的事情。所以我觉得我有点意外地找到了进入 AI 领域的路。但我真的很喜欢它,它非常有趣。
Sarah
所以你们实际上是从一个开源模型 Bark 开始的,你能谈谈最初的想法是什么以及如何开始的吗?你们怎么投身到音乐生成这个领域?
Mikey Schulman
我们在 Keno 主要从事文本处理工作,在被 S&P Global 收购后,我们开展了第一个音频项目,即学习转录财报电话会议的内容。 我相信你们中的许多人都阅读过财报电话会议的文字记录,很可能这些记录就是由 S&P Global 完成的。以前这些记录全都是手工制作的,非常费时费力,我们引入自动化之后,大大提高了工作的速度和规模。
我们对音频 AI 领域产生了浓厚的兴趣,虽然我们本身是音乐家,但通过这个并不怎么吸引人的财报电话会议转录项目,我们发现了自己对此的热爱。我们还意识到,在音频领域,相比于图像和文本,音频的进展真的相当落后,这是在 2020 年的情况,我认为如果你仔细观察过去几年图像和文本领域的进展,你会发现现在这种差距可能更大了。
正如我所说,我们从没有一个固定的总体规划,我们创建了 Bark 这个开源项目,甚至在发布 Bark 之前,我们就已经知道我们不会将重点放在语音上。老实说,很多人劝我们去创建一个语音公司,这样做比较直接,你可以打造一个出色的 B2B 产品,而且市场会喜欢它。
但我们无法抗拒内心的热爱,我们对音乐的热爱远超其他,因此我们决定创立一家音乐公司。
Sarah
为什么你知道你们不会专注于语音呢?
Mikey Schulman
语音确实很有趣,但我们最为吸引的那种创造力在语音中并不真正存在。 语音只需要做到准确无误,比如朗读一篇《纽约时报》的文章,即便它略带单调或机械,也能完成任务。但真正的创造性工作却在音频的另一个完全不同的领域,那就是音乐。对我来说,音乐带给我的感受才是最重要的,
Elad
这真的太酷了。这也是你采取的一种策略。音频模式的模型通常有两种主要架构,在音频模型的形式上,很多都是传统的抗干扰模型。目前,Transformer 模型方面也做了不少工作,当然,还有其他一些架构类型。你能告诉我们一些你们采取的技术方法,或者你们是如何考虑这个问题的吗?
之所以问这个问题,是因为对于很多 Transformer 模型来说,人们通常关注的是 scaling law 以及如何随规模扩大而适应。我对这如何应用到音乐上,以及你对未来的看法(相对于我们现在不将其视为秘密的模型和方法)很感兴趣。
Mikey Schulman
我们并不掩饰这些不过是 Transformer 模型的事实,这在一定程度上是我们处理文本的背景,但同时,Transformer 模型可以很好地扩展,很多工作已经由开源文本社区完成了,这真是太好了。我们可以精心挑选我们的创新点,我们大量创新的地方是如何对音频进行分词。
你知道,音频并没有被很好地离散化的优势,它是以极快的速度(大约每秒 50,000 个样本)被采样的连续信号,因此我们需要使用一套启发式方法或模型来将其转换成可管理的一系列 token。这正是我们在创新中花费大量精力的地方,真正理解这一点很重要。
Sarah
正如你所说,关键在于它给你的感觉。那么,你是如何在自己的模型中衡量质量的呢?你知道如何训练出能够产生出色作品的模型吗?这全都是依赖于像 Mikey 一样的人类评估吗?
Mikey Schulman
当然不是把 Mikey 作为一个人类评估标准。但是,我们在这里常说的一句话是:审美很重要。我认为这是对于人工智能所有领域的一个认识,我们往往会成为我们评价指标的奴隶,总是说在这个基准测试上取得了多少准确度。在基准测试和现实世界的对比中,有时候基准测试并不是那么重要,尤其是在音频领域,因为这是一个非常新的领域。
“审美至关重要”意味着你必须用耳朵来评价音乐,虽然你可以通过查看最终损失之类的数据来评估,但实际上这个过程比你想象的要复杂得多。但好消息是,我们这里的每个人都非常爱音乐,这意味着评估你的模型,也就是听大量的音乐,让别人听大量的音乐,进行大量的 A/B 测试,这实际上是一种乐趣。
但我认为在如何准确评估这些音乐方面,我们还有很长的路要走,在这个过程中,我们不仅学会了如何评估,还学到了很多关于人类和情感的知识。
Elad
这很有趣,因为作为一个类比,我知道在我旅程的早期阶段,人们认为,真正脱颖而出的一种方式是人们觉得展示了更好的品味,这是更好的美学,而不是他们正在优化一种更好的评估函数,尽管显然他们当时也在做一些事情,所以在这里感觉很类似。所以在这里,品味的成分非常重要,特别是在早期阶段。 那么,还有其他哪些方面,你的音乐背景影响了你们的产品开发,或者真正帮助推动了你们正在进行的工作呢?
Mikey Schulman
有一个老生常谈的说法,在机器学习和 AI 中查看你的结果和数据是至关重要的,如果这个过程能够带来愉悦,它就不会显得那么枯燥无味,这不仅仅对我有效,对我们团队中的每个人都是如此,这最终非常重要。
自从创立公司以来,我实际上学到了很多关于音乐的知识,包括接触到了我之前未曾了解的不同音乐流派。接触到一些我们从未知道的音乐存在,以及那些尚未由人类创造出的混合流派,真是大开眼界。不过有趣的是,当你想知道我对音乐的了解时,其实我们尽量避免在模型中加入太多的隐含偏见。
模型不应该预设了解音乐理论,就像你不需要告诉 GPT 这是名词那是动词一样,GPT 会自己学会。 如果我只告诉我的模型有 12 个音符,那么它只会输出 12 个音符。如果我告诉模型只有 50 种乐器,那我就永远得不到那种独一无二的声音。所以我们非常努力不去做这样的事情。老实说,这并不是我们的聪明之处,这其实是我们从文字处理领域借鉴来的,下一个词预测的美妙之处非常有力量。
Sarah
Mikey,AI 音乐领域有什么难题呢?我对这个领域不太了解,比如在推进模型难以正确把握的方面,你想要怎么做?就像在视觉模型或视频处理中,处理人类手部动作、物体连续性等问题对我来说更直观一些。
Mikey Schulman
是的,这是个很好的问题。我必须承认,我并没有真正考虑过这个问题。有些简单的问题或者容易描述的问题,比如立体声处理得是否正确,比特率是否足够高等等。
再次强调,音乐之所以特别,是因为它能触动人的情感。任何困难之处,其实都在于你在某种程度上真的在针对人类情感,这并不是很容易被理解的,而且这种情感非常多样化,受到文化、年龄和人口特征的影响很大。 所以,你知道的,我们所做的工作远离了客观真理,这其实是很容易的。
对于那些日复一日专注于文本大语言模型的人来讲,思考像“我在法学院入学测试(LSAT)上的表现如何”、“我能否仅凭这款模型通过律师资格考试”这样的问题是非常重要的。对我们来说,这些都不是问题。我们的现实更多是,我创作了一首歌,它带给我特别的感受,这种感觉可能来自于音质粗糙的音频,也可能是因为歌曲的长度。在音乐领域,我觉得还有很多无法回答的问题。
Elad
而你们之前做了一件事,我记得是推出了一个免费层级,人们每天可以免费制作多达 10 首歌,再加上你们的订阅服务。你们是怎么看待用户随着时间的演变,从消费者到专业消费者,再到商业用户的?现在讨论这个是否还为时尚早?有没有你们特别关注的领域?你们是如何考虑这些问题的?
Mikey Schulman
这真是个好问题。我们的目标是改变全球人们与音乐互动的方式,为大家带来全新的体验。因此,这是一个面向消费者的产品,我们并不是想把 AI 技术简单地融入到专业音乐软件如 Ableton、Logic 或 Pro Tools 中。这个产品不仅仅是为那些熬夜做音乐的爱好者准备的,它是为了每一个人,比如我的妈妈。
至于商业策略,立即开始收费可能并不符合常规的看法,但这实际上非常关键。因为我们在尝试创造一套全新的用户行为模式,了解到底是什么会让用户愿意花钱,这点至关重要。老实说,人们经常询问生成式 AI 的商业模型。我认为目前大家都在采用某种类似于软件即服务(SaaS)的定价策略,但这通常做得非常粗糙,我们也不例外。
但我不确定这种做法从长远来看是否正确。它给我的感觉可能只是一种残留现象。就像五年前那些创建 SAAS 公司的人们,和五年前投资 SAAS 公司的投资者,现在又在创建和投资这些新项目,所以这看起来有点像是过去的残留。无意冒犯你们,你们都是优秀的投资者,但这让我感觉有些问题还没有彻底解决。
Elad
你提到的这个问题确实很有趣,比如订阅、广告、其他类型的付费推广,随着时间的推移,我们可以做很多事情,包括微交易,在市场上转售商品,并让人们从订阅者中分成,有点像是下一代的 Spotify 之类的。所以真的很有趣,想象一下这一切将如何发展,你将如何引领它。
Mikey Schulman
说到这个,我觉得很有趣,因为我记得回想起我哥哥曾经是 AOL 的 Beta 测试员时,我确实记得那些事情发生过,我记得实际上看着他测试这些东西。
Elad
那真的很酷。还有其他的吗?人们以一些出人意料的方式使用产品,或者出现了一些让人惊讶的使用案例和应用,或者他们用它做了其他令人惊叹的事情。
Mikey Schulman
看到这些,我感到非常满意和兴奋,当然也感到惊讶。
人们爱创造、爱对自己的作品拥有所有权,并且乐于与他人分享,这一点也许并不奇怪。如果要更简单点说,他们享受成名的感觉。但这和真正的名人所享有的名望不同。
我们已经看到,人类愿意花费大量时间坐在电脑前享受创作音乐的过程,现在创作音乐有时是痛苦的,但这仅仅是为了最终成品。当你把这个过程开放给大家时,当然你很在意最终的作品即歌曲最后听起来的样子,但你也非常在乎创作的过程,并且人们真的很享受制作音乐的乐趣,不论最终成品如何。
我个人可以告诉你,我做音乐时最有趣的经历就是和朋友一起玩音乐,即便我们什么都不录制,只是即兴演奏。我认为,我们能够通过一些技术开启的某些体验非常类似于此,这是一种神奇的经历。 我觉得每个人都应该享受到一些创作的快乐,和他人一起。
你知道的,创作带来的快乐,是感觉自己的技艺提升了,而与 AI 合作,与 Suno 一起,或者是人们正在一起即兴创作,这非常酷,就像视频游戏自己玩很有趣,但在多人模式下可能会更有趣。我们看到人们单独享受这些,但也看到人们以各种有趣的方式将多人模式融入其中,例如,人们可以一起共同创作歌词,交换单词,交换段落,我写这一段你写副歌,或者我写歌词你选择所有的风格,我制作一首歌然后发给你,然后你再制作一首歌回给我。
因此,这并不令人意外,我认为人类的确是在音乐的共鸣中进化,并渴望一起创作音乐。 几乎每种文化都有自己的音乐,所以我们看到这一切并不应该感到惊讶,但从我们的角度看,这确实令人满足,因为它真正地将人们聚集在一起,让人们露出微笑。我不会假装我们在 Suno 上治愈了癌症,但确实很酷,因为它让很多人露出微笑。
Sarah
你我之前讨论过的一个话题是,在创作平台上,通常会有一个非常不均衡的创作者与观众比例,这取决于平台的性质,像是创作者和听众、观众、观看者之间的比例。当然,今天有很多人制作音乐,但我们听到的却是相对少数人的作品,你认为像这样的东西会带来多大的改变?
Mikey Schulman
我认为会有很大的变化,我现在推测还非常非常早期,但我认为我们打开了几条重要的路径,首先是,我猜小众的小群体的分享是可能的,我们可以创作那些只有三个人会听的歌曲,因为它记录了我们三个人共同经历的一刻,就像我们会拍自拍一样。这种分享是当前音乐中所缺失的。
(三个人即兴创作了一首歌)
Mikey Schulman
我要告诉你的是,我们看到了一些非常酷而意想不到的事情。我们推出了一个简单的功能,允许你编辑歌曲标题,以防你不小心输错了什么。当我们实现了这个功能之后,人们开始在他们冲上趋势榜的歌曲标题中加入自己的名字。人们喜欢对自己的创作感到自豪,这是事后看来非常明显的一点,他们会通过各种方式让你知道他们想从你的产品中得到什么。
但回到你之前的话题,Sarah,我想说的是,我们经常讨论在不同平台上创作与消费的不平衡性,TikTok 是以创作为重的著名平台,尽管在 TikTok 上,消费仍然占主导。我认为,这些技术有潜力将这种不平衡推向更远,因为创作过程本身就非常有趣。但我实际上相信,如果我们处理得当,在未来我们不会再用“创造”或“消费”这样的词语来描述我们的行为。 这些活动将相互交融,我们将拥有更多主动参与的消费体验,也会有更多放松心情的创作活动。
我认为,我们最终不会再刻意区分有多少人在创作,有多少人在消费,我们只会说人们在享受所有这些音乐活动。
Elad
这是对未来一个非常有趣的设想,也对我们如何看待音乐、音乐产业以及它如何渗透社会产生深远的影响。你对未来五年后有什么设想?
Mikey Schulman
如果我们的设想是正确的,未来 5 年里,如果我们能够让十亿人更深入地参与到我们尚未接触到的音乐体验模式中,音乐的未来,无论是在经济价值还是人们投入的时间上,都将会有显著的增长,这一点我十分确信。 具体的发展形态可能还有讨论的余地,这只是我的个人看法。
音乐与人性紧密相连,蕴含着丰富的情感,我不认为人们会失去与他们最爱的艺术家之间的联系。相反,当你投入到音乐的创作中,去理解这个过程,你会与你崇拜的艺术家建立更深厚的情感纽带。我认为,如果我们回顾最近一轮技术革新对音乐产业的影响,如数字音频工作站(DAW)的兴起,我们会发现它极大地加速了音乐风格的变化和文化的演进。
音乐实际上是文化的一面镜子。数字音频工作站让许多原本无法创作音乐的人开始了音乐制作,你只需一台电脑,一副好耳机,愿意学习和掌握这个工具。如果这种技术能够普及到更多人手中,那么更多的人将会创作出新作品,成为风格的引领者。
文化的变迁速度、音乐风格的演变速度以及新音乐风格的发现速度都可能大幅加快。即使有些人选择只是聆听音乐,音乐的世界也会因为变化而变得更加丰富多彩。你将不会看到人们在以同样的方式互相模仿,而是各自发展出独特的风格。我对此感到非常激动。
Sarah
因为并非每个听众都会喜欢使用数字音频工作站这样的工具进行音乐创作,比如使用 Ailon 这样的软件,但你知道,你可以创造出自己的音乐,在时间轴上创造声音,正如 Mikey 所述,在你的宿舍或公寓中,以一种非常经济的方式进行创作。
Mikey Schulman
这是相当革命性的。人们发现,制作一张专辑不再需要一台价值 50 万美元的 SSL 混音台和一个十人团队,这一发现对我们的集体文化产生了巨大影响。
Sarah
我认为,关于音乐数字化的影响,这是一个尚未被充分讲述的故事。我不是最合适的人选,但应该有人,拥有丰富的音乐历史知识,来解释音乐数字化带来了什么改变。想象一下,我拥有无限的世界上所有小鼓声音集合,这种能力完全打破了限制。正如你所说,这比传统工具便宜得多,你甚至不需要知道如何演奏任何乐器。我认为 Suno 正在做的事情,就是使这种创作过程变得更加简单。
Mikey Schulman
我认为这是正确的方向。还有一件事我非常期待的是,如果你回顾过去十年的音乐,许多变化都是在声音上的创新,但在歌曲结构上的革新则相对较少。 这是由新技术解锁的结果,比如数字化的进步。
我实际上非常期待的是,AI 不仅能够创造出我们从未听过的声音,而且通过将这些工具交到人们手中,我们可以解锁新的歌曲结构、和弦变化,结合不同的风格,创造出在声音和旋律上都全新的作品。我相信这将能够真正吸引人们的持续兴趣。
在我最乐观的时候,我会想着让音乐走出 TikTok 的模式,让我们能够一次性地听超过 30 秒的音乐。可能我有点天真和乐观,但我觉得这是完全有可能实现的。
(Mikey Schulman 播放了一首网站上的热门歌曲)
Mikey Schulman
我要更进一步说,机器甚至不知道声音这个概念,它只是所有的声音,它能够产生我们已经进化出来并且与文化相关联的共鸣声音,所以这一切让我感受到,我有世界上最酷的工作。
Sarah
但是是一个失败的量子物理学家。
Sarah
确实。