图片来源:Sequoia Capital
当语音成为AI交互的新战场,几乎所有大模型实验室都在将“语音”整合进自己的多模态系统中,ElevenLabs 却选择了一条不同的路径:只做声音,只为声音
这家成立于欧洲的小公司,凭借对音频的极致聚焦,从模型架构、数据体系到内容生成逻辑上走出了一套独立于LLM之外的技术路线,反而在“语音表达力”这个维度上不断反超巨头。
在本期节目中,ElevenLabs 联合创始人兼CEO Mati Staniszewski 分享了他们如何用小团队打造出业界领先的文本转语音系统,如何在语音情感表达、上下文理解、个性声音建模等关键环节实现突破,并通过极致的延迟控制与音质打磨,在音频生成质量与用户体验之间建立起可扩展的工程体系。
他也讲述了为何语音数据远比文本稀缺,标注更复杂、语义更模糊,因此音频AI无法简单复用LLM的范式。 更重要的是,ElevenLabs 如何理解“语音Agent”的真正价值不仅是语音转化,而是以声音作为情感与认知交互的介质,构建一个“更像人”的对话系统。在这一过程中,他们选择与基础模型厂商保持技术解耦,用级联架构实现多模型协同,并坚持让声音具备可追溯性与使用透明度,抵御滥用风险。
以下是全文翻译。
聚焦语言与声音的底层交互:ElevenLabs的技术演进与产品聚焦逻辑
Pat Grady:欢迎收听本期节目。今天我们邀请到了ElevenLabs的Mati Staniszewski,聊聊他们是如何在AI音频领域占据一席之地的。即使大型模型实验室纷纷进入语音领域、推动多模态发展,ElevenLabs依然凭借聚焦策略稳住了阵地。
语音AI和文本AI在数据和架构上其实有着显著差异,Mati会分享他们在音频技术上的专注策略、遇到的工程挑战,以及企业客户在意的真正标准。我们还会探讨语音作为交互方式的未来、构建能真正对话的智能Agent所面临的难题,以及AI打破语言障碍的潜力。
此外,Mati也会谈谈在欧洲创业的经验,并分享他为什么认为语音交互可能比我们想象得更快到来。Mati,欢迎你做客节目。
Mati Staniszewski:感谢你们的邀请。
Pat Grady:好的,第一个问题。几年前,当ElevenLabs刚开始迅速发展时,有一种普遍看法认为,你们最终会被大模型碾压,成为多模态基础模型实验室扩张过程中的“路边尸体”。但你们显然挺过来了,而且发展得不错。发生了什么?你们是如何顶住这些大模型实验室的压力,并为自己开辟出这样一个独特且有吸引力的定位的?
Mati Staniszewski:过去几年确实非常激动人心,同时也的确如你说的,我们至今仍必须保持警惕,才能在与基础模型的竞争中持续占据优势。但我认为最基本、也是最有效的建议就是:保持专注。对我们而言,这意味着始终聚焦在音频上。无论是公司战略、研究方向还是产品开发,我们始终专注于音频,这对我们帮助非常大。
在这个问题背后,真正核心的一点是:这些年来我们一直能够构建出业内领先的研究模型,并且在音频领域击败那些大实验室。在这方面,我要特别感谢Michael Finder,我认为他是天才;还有Piotr,他不仅在这个领域实现了最初的一些技术创新,也成功组建了我们现在这支非常强大的团队,一直在不断推动音频技术的边界。
我们起步的时候,其实音频方面的研究非常少。大多数人关注的是LLMs,还有不少人投身于图像领域,因为视觉结果更直观,做研究的人更容易看到成效,也更具吸引力。所以当时对音频的关注是明显不足的。在那之前的一些关键创新,比如扩散模型和transformer模型,其实并没有以高效的方式应用到音频领域。而我们则在最初几年把这些技术引入进来,首次真正实现了文本到语音模型对语境的理解,从而在声音的语调和情绪表达上达到了全新的水平。这种差异化,才是真正的研究突破。
接下来我们迅速围绕这些研究成果构建了完整的产品体系,确保用户可以实际使用这些模型。我们多次看到,仅有模型还不够,如何将其打造成用户可感知、可使用的体验同样重要。对我们来说,无论是有声书的朗读与生成、配音、电影多语言化,还是文本转语音、构建完整对话体验的智能Agent,这些产品层的打磨才能持续帮助我们在与基础模型实验室及超大规模玩家的竞争中脱颖而出。
Pat Grady:好的,刚才你讲的内容非常丰富,我们等一会会逐一深入探讨。不过你刚才提到了你的联合创始人Piotr。我记得你们是在波兰的高中认识的,对吧?能不能和我们讲讲你们是怎么结识的?还有,这家公司最初是怎么创立起来的?
Mati Staniszewski:我认为我可能是世界上最幸运的人之一。我们是在15年前的高中认识的。当时我们在波兰华沙参加IB课程,几乎所有的课都一起上。我们都特别喜欢数学,很快就在数学课上聊得来,开始坐在一起、一起学习,也常常一起度过课余时间。这些年,我们一起经历了几乎所有事情:住在一起、一起读书、一起工作、一起旅行。15年过去了,我们还是最好的朋友。时间一直站在我们这边,这真的很难得。至于一起创业有没有让我们的关系更紧密?肯定有起伏,但我觉得确实是更深了。
这段经历确实让我们的关系经受住了考验。公司刚起步那会儿,其实很难判断这种高强度的投入会持续多久。一开始我们想着,接下来四周冲一把,只要彼此信任、各自负责好不同的板块,然后就继续推进。结果变成了一个又一个四周。直到后来我们意识到:这将会是接下来十年的事。而且这十年,我们几乎没有别的生活,只有ElevenLabs,什么都不做,就做这件事。
但随着时间推移,我觉得我们之间有些变化是自然而然发生的。回头来看,其实这也起到了很积极的作用。我们现在依然保持密切联系,会聊各自的生活状态、目前人在世界的哪个角落,也会花点时间见面,即便是在工作以外的场合,聊的还是和工作有关的事。对我来说,Piotr是我认识最久的人之一,这些年我亲眼见证了他的成长,我们之间也始终保持紧密连接。
Pat Grady:所以你认为重要的是要确保你的联合创始人、核心高管以及团队成员,能够以最好的状态投入工作,而不是完全忽视他们在个人生活中所经历的一切。
Mati Staniszewski:没错。接着你刚才的第二个问题,关于ElevenLabs的灵感来源,其实背后有一个更长的故事。这其实可以分成两个部分。第一是,多年前Piotr在谷歌工作期间,而我还在做志愿者时,我们经常一起做“黑客周末”项目,就是为了好玩去探索新技术。我们做过很多尝试,比如构建推荐算法:你会看到一组选项,选中其中某个之后,下一组选项会基于你之前的选择进一步优化,更贴近你的偏好。
我们真的部署了这个系统,也玩得很开心。后来我们又尝试做与加密货币相关的东西,想搞清楚加密领域的风险,并构建一个加密风险分析器。那真的非常难,虽然最终没有完全做出来,但也是在第一次加密热潮中一次不错的尝试,希望通过这个工具为行业提供一些数据分析支持。再后来,我们开始做一个与音频相关的项目。我们做了一个能分析你说话方式的工具,并基于分析结果给出改进建议。
Pat Grady:那是什么时候的事?
Mati Staniszewski:那是2021年初,我们第一次真正对音频领域开始探索。当时我们开始系统了解:音频领域有哪些可能性,当前的技术水平如何,哪些模型能够实现区分不同说话人和语音内容理解,语音生成技术又发展到了什么程度。
而到了2021年底,真正的灵感时刻来自波兰——也就是我们成长的地方。当时Piotr要和他女朋友一起看一部电影,但她不懂英文,于是他们打开了波兰语配音。这让我们一下子想起了从小的观影体验:在波兰,几乎所有外语电影的配音,无论角色是男是女,都会由一个人用同样的声音单调地念出来,像是在朗读,完全没有情感。这是非常糟糕的观影体验,至今仍然如此。当时我们就意识到:这一定会变。我们相信技术进步一定会带来改变,让人们能够以原声和原本的表现力去欣赏这些作品。
于是我们决定去实现它、改变它。当然,后来这个想法也扩展了:不仅是配音,其实绝大多数内容还都不能实现语音化,而且基本都局限在英语语境下。我们开始意识到,动态交互的形式会发生变化,音频也将成为打破语言障碍的关键媒介。
Pat Grady:你们当时有没有看到哪一篇论文,或是某项具体的技术能力,让你们觉得:好,现在是时候推动这个改变了?
Mati Staniszewski:当然,《Attention is All You Need》绝对算是其中之一,它非常清晰地展现了未来的可能性。但如果换个角度来回答,其实真正让人觉得这事真的可以做并不完全是某篇论文。
当时有一个非常出色的开源项目,在我们开始探索这到底是否可行的阶段显得特别关键。那就是Tortoise TTS,一个开源的语音合成模型。虽然当时它还不够稳定,但却首次展示了惊人的语音复制与生成效果,让人看到原来语音生成可以做到这个程度。
那已经是我们成立公司的第一年左右,大概是2022年。那一刻让我们意识到,这是可以实现的,而且其中还有很多可以创新的空间。之后我们就把大部分精力都投入到还能在哪些方面做出突破,比如从头开始,把Transformer和Diffusion模型引入到音频领域。最终带来的结果是模型在音质和表现力上实现了新的跃迁,真正达到了人类声音的质量水平,让人听上去像是在和真人说话。
从产品构建逻辑到人才策略:ElevenLabs如何打造语音AI能力
Pat Grady:我们来聊聊你们在产品构建上的具体做法吧。文本领域里那些有效的方法,有哪些可以直接迁移到音频?又有哪些是完全不同的,需要用到不同的技能和技术的?我很好奇,这两者到底有多相似,又在哪些方面差异巨大?
Mati Staniszewski:好的,首先我想说关于模型训练涉及三个核心要素:算力、数据和模型架构。在架构方面,虽然可以借鉴一些文本模型的思路,但整体上是非常不同的。数据方面差异也很大,不仅体现在可获取性上,还体现在数据的使用方式上,为了训练音频模型,需要的数据结构和处理方式与文本完全不同。而在算力方面,音频模型的体量相对较小,不需要那么多计算资源。
这意味着很多关键性的创新,其实并不依赖于单纯的模型规模扩展,而是在模型结构和数据利用方式上的突破。这也让我们有机会在不靠规模堆叠的情况下,依然能在音频领域胜出基础大模型。
Pat Grady:也就是说不依赖算力是吗?
Mati Staniszewski:没错。我觉得,数据是最先体现出差异的地方。在文本领域,你可以很可靠地直接使用现有文本数据,它基本都能用。但在音频领域,一开始就面临一个问题:真正高质量、能带来理想训练效果的音频数据非常少。其次,这些音频往往没有配套的文字转录,或者说没有精确还原说话内容的文本。这在这个领域里是一个很大的缺口,需要投入大量精力。而且还有第三个方面,也就是当前这一代模型逐渐在解决的问题:我们不仅需要知道说了什么,还需要知道怎么说的,比如说话时带有怎样的情绪、是谁说的、包含了哪些非语言信息。这类数据几乎是缺失的,尤其是在高质量数据层面。
所以这块工作我们花了非常多时间,尤其在早期阶段。我们需要构建一个语音转文本的模型处理流程,并通过额外的人工标注团队来补上这些信息。这和文本的处理方式非常不同,因为需要付出远多得多的训练周期。
然后在模型层面也有一些本质差异。第一代文本转语音模型的一大挑战是:你要理解上下文,并将这种理解转化为语音中的情绪表达。但它预测的不是下一个文本token,而是下一个声音。这个过程既依赖前文,也可能依赖后文。比如说,“多美好的一天”,如果你从文本来看,会觉得这是积极情绪,那语音应该带着正面情感来读。但如果后面还有一句,“我讽刺地说”,那整个语气就完全变了。你必须能在语音表达中做出这种语调、情感上的调整,甚至在不同位置强调反转的节点,这就非常复杂。
此外,还有一个非常不同的模型问题是声音的部分。我们在这一点上也做了大量创新:我们想要尽可能真实地还原原始说话者的声音特征。为此,我们设计了一种编码和解码机制,它与当时的主流方法不一样。我们并没有硬编码诸如“这是男性还是女性”或“声音年龄是多少”这样的属性,而是让模型自己去决定并学习声音的特征,然后将这些特征带入语音生成过程。
所以现在,一个文本转语音的模型输入有两个部分:一是文本的上下文,二是声音本身的特征。系统会基于这两个输入融合生成最终的输出。如果声音本身更冷静或更有张力,生成语音也会随之变化。这种建模方式与文本模型完全不同,是另一种技术路径。
Pat Grady:为了打造这样一个系统,你们需要招募哪些类型的人才?我猜这应该和大多数AI公司所需的技能组合很不一样。
Mati Staniszewski:这个过程其实也在不断演变,但我觉得最早的一个区别,并不完全是技能层面的,而是方法上的不同。我们一开始就选择了全远程的工作模式。我们希望无论顶尖研究员身在何处,都能加入我们。我们知道音频领域真正优秀的人才其实很少,也许全球只有五十到一百位特别厉害的研究者,这可以从他们的开源项目、论文发表或者所在公司看出来。所以我们决定去主动吸引他们,不论他们在哪,都让他们成为我们的一员。这种方式对我们帮助很大。
第二点是,我们希望研究员能真正觉得工作有意思,也确实认为让他们紧贴产品上线是最好的研究方式。因此,我们特别强调让研究人员离最终部署的距离非常近,他们可以快速看到自己研究成果的真实效果,反馈循环非常短。此外,我们的架构中还包括研究工程师,他们并不专注于开创全新架构,而是负责对已有模型进行优化、改进并实现大规模部署。这类研究工程师常常被直接视为研究人员,因为他们所承担的任务在复杂性和技术深度上完全不亚于传统意义上的研究工作。
同时,围绕研究的外围层,我们也做了很多不同寻常的尝试。比如我们建立了一支由语音教练培训的数据标注团队。这些语音教练不仅教会标注员如何理解音频数据、如何标注情感等信息,还会对最终标注结果进行复审。这种训练和复审流程,在传统公司中并不常见。
不过我认为最关键的一点是:你必须真的对音频这个方向本身感到兴奋。只有这样,你才会愿意投入到我们这种强依赖自主性的研究环境中。尤其是在公司还很小的早期阶段,每位研究员都需要承担非常大的责任和独立推进的能力。虽然大家之间会交流协作,但很多最核心的工作仍然需要靠个人主导完成。这对心态提出了不一样的要求。如今我们的研究团队和研究工程团队加起来大概有十五人,他们真的非常出色。
用声音重新定义交互体验:语音Agent的多元应用场景
Pat Grady:过去几年里,产品的质量和适用性确实经历了一些重大的跃迁。我记得大概是在2023年初,或者是稍晚一点,你们开始迅速爆火。我印象中是那个《哈利波特×Balenciaga》的视频走红之后引发的,当时用的就是ElevenLabs的声音技术。看起来你们有几次这样的在消费者领域的内容突然爆红的时刻,然后大家追踪来源,发现是你们的技术。但除了这些之外,从产品角度来看,过去几年里有哪些关键的跃迁节点,让你们打开了新市场,或者带来了更多开发者的关注?
Mati Staniszewski:你刚才提到的正是我们一直在努力做的事情。即使是现在,要推动技术真正广泛落地,一个关键做法就是先面向专业消费者开放使用,把新技术带给更多人,向外界展示它的可行性,随后再以自上而下的方式引入到我们合作的企业中。
这样做的原因主要有两个。第一,这些人群在采用和使用新技术方面通常更积极、反应更快。第二,虽然我们在构建产品和研究成果时会对可能出现的用例有所预期,但其实会涌现出许多我们原本根本没有想到的用法,就像你刚刚提到的那个例子,那是我们完全没有预料到用户会做的事情。这确实是我们现在仍在持续推进的路径。每次推出新模型时,我们都会尽可能让所有用户都能用上,从他们的使用中学习、不断优化。这通常会形成某种循环:发布一个新模型,广泛开放使用,专业消费者开始采用,随后企业用户跟进,对产品提出更多稳定性和功能要求,我们就进一步完善,然后再发布新版本和新功能,如此循环往复。我们真的非常喜欢这种方式。
从历史上看,第一个关键点就是我们发布beta模型的那次。你说得没错,大概是在2023年初或2022年底,我们向一部分用户开放了测试。当时其中有很多人是图书作者。我们的产品界面上有一个很小的文本框,用户可以输入文字并生成语音,大概只有正常推文的长度。结果有一位图书作者把整本书复制粘贴进去,然后下载下来。当时大多数平台还不允许上传AI内容,但他还是成功上传了,而且平台误以为那是人声。他还收到了很多好评。后来他又带着一群朋友和其他图书作者一起来找我们,说这个工具太棒了,他们真的很需要它。
这就促成了我们在图书作者圈子里第一次小范围的传播。差不多同一时间,还有另一个类似的例子,我们发布了第一个会笑的模型,我们写了一篇博客介绍它,说这是首个能笑的AI。很多人看到之后觉得非常惊艳,反响很好,这也帮我们吸引了大量早期用户。
当然,还有你刚才提到的那一类创作者。那差不多是在那个时期开始出现的一种全新趋势,也就是所谓的“无脸频道”,创作者本身不会出现在画面中,而是配上解说,讲述正在发生的事情。这类内容开始像野火一样传播开来。而我们在头六个月就为这类场景提供了大量的语音和旁白支持,看到这一点也非常令人兴奋。
然后是在2023年底到2024年初,我们发布了多语种相关的产品。那是第一次你真的可以用多种主流欧洲语言生成旁白,我们也推出了配音产品。这可以说是回到了我们最初的愿景:为你提供音频,并能将其转换为另一种语言,同时仍保留原来的声音风格。这又引发了一次小范围的传播,很多人用它制作各种视频。当然,有些是预期中的,比如传统内容配音,但也有一些是我们完全没想到的,比如有人尝试给唱歌的视频配音,虽然模型本身并不是为此设计的,但它生成了类似“喝醉后唱歌”的效果,结果这也多次意外走红,挺有趣的。
之后在2025年初,几乎所有人都开始做Agent,而我们也开始为这些Agent加上语音功能。整个流程变得非常简单:从语音转文字、接入LLM生成回复、再转回语音,实现无缝对话。我们也看到了一些应用案例获得了广泛关注和用户采用。最近我们与Epic Games合作,复刻了达斯·维达的声音,让玩家能在堡垒之夜中与他互动,使用规模非常庞大。大多数用户会尝试和他展开有趣的对话,把他当作游戏中的伙伴;也有人会测试系统极限,看能不能让他说出一些不该说的话。但目前产品整体表现良好,能保持既有表现力又相对安全。
在配音方面也出现了病毒式传播的案例,比如我们和Lex Fridman合作,他采访印度总理莫迪,原始对话是一方说英语、一方说印地语,我们把整个对话双向转换,让观众既能听到两人都讲英语的版本,也能听到两人都说印地语的版本。这段视频在印度大火,美国用户也很喜欢英文版的。
回到一开始的主题,我们可以预见Agent的未来形态会非常多样。无论是开发Stripe自动退款Agent,还是构建陪伴式Agent,再到真正的企业级应用,这些都可能迎来更多的爆发时刻。
Pat Grady:好的。你能多讲讲你们目前在语音Agent上观察到的情况吗?这似乎已经迅速成为一种非常流行的交互方式。哪些方面的效果比较好?哪些方面还有问题?你们的客户在哪些场景中取得了成功?又有哪些地方还会遇到卡壳?
Mati Staniszewski:在我回答之前,我想先反问你一个问题。你们最近接触的公司里,是不是也明显看到有越来越多团队在构建Agent系统?
Pat Grady:是的,确实如此。我觉得大多数人对未来的设想都是:一个类似Agent的虚拟化身,由ElevenLabs提供语音支持,用户可以与之进行类人的交互。当然,大多数团队起步时还是会从相对简单的形式开始,逐步向更复杂的交互演进。我们现在看到很多文本形式的Agent在企业系统中快速扩展。我相信在消费端也有很多应用,但我们接触到的主要还是企业这块。
Mati Staniszewski:确实,我们看到的情况和你们非常相似,不管是新创公司还是大型企业,现在几乎每个都在构建自己的Agent。在企业层面,Agent对内部流程的提升也非常明显。如果从更宏观的角度来看,我们从一开始就相信,语音将成为人与技术交互的核心接口。它很可能是最原始、最自然的交互方式,从人类诞生那一刻起就已经存在。语音所承载的内容远远超越了文本,它包含情绪、语调、甚至很多文本的不完美之处。人类正是依靠这些情绪线索,才能在交流中做出不同反应。所以这也是我们当初切入这个方向的原因:我们并不只是想构建一个文本转语音的工具,而是希望客户能够基于这个能力,真正实现完整的对话式应用。
我们也看到很多客户正尝试将语音整合进他们的系统。比如在医疗领域,有公司在尝试让语音Agent自动完成护士无法及时处理的工作。像Hippocratic这样的公司,已经可以用语音Agent打电话提醒病人吃药、询问他们的身体状况,并将这些信息反馈给医生,从而显著提升效率。对于一些用户来说,语音电话几乎是唯一能有效触达的方式。
对我个人来说,最激动人心的场景之一是教育。我在想能不能通过语音以全新的方式学习?我以前曾是个业余国际象棋爱好者,我们现在也与chess.com合作,不知道你有没有用过这个网站?
Pat Grady:我是用过,不过我棋下得不好。
Mati Staniszewski:我们正在尝试构建一种解说功能,可以在你下棋的过程中引导你,从而帮助你提升棋艺。未来我们希望能和一些传奇棋手合作,比如让Magnus Carlsen、Garry Kasparov或Hikaru Nakamura的声音来引导你对局,让你在对弈中不断进步,这将非常令人兴奋。我认为这会成为一种常见的趋势:每个人都可以拥有一个专属的语音导师,教授他们想要学习的内容,用他们熟悉和喜欢的声音进行互动。
这是一种企业应用场景。而在消费端,我们也看到了全新的内容增强方式。我们曾与时代周刊合作开发了一项功能,读者不仅可以阅读文章、收听文章,还能与文章进行对话。在“年度人物”发布期间,用户可以提问:他是怎么成为年度人物的?还有哪些年度人物?等等,让用户可以深入探索内容。
此外,我们公司也会定期打造一些可交互的Agent,用来展示AI应用的可能性。最近我们和他的家人合作,为我最喜欢的物理学家之一理查德·费曼打造了一个AI Agent,用户可以实际与他对话。
Pat Grady:他也是我最喜欢的物理学家。
Mati Staniszewski:他确实是一个非常了不起的人。他传授知识的方式既富有教育意义,又简明幽默。他的语气、表达方式、写作风格都非常出色。所以这个项目真的很精彩。我想,这也许会改变我们未来获取知识的方式。你可能可以用他的声音来听他那些极具代表性的演讲或著作,比如《Surely you're joking, Mr. Feynman!》,并进一步了解他的背景故事和思想脉络。
从系统集成到知识整理:语音AI落地的真实挑战与模型合作的协同策略
Pat Grady:我也很想听到由他本人朗读那本书,那一定非常棒。在我看来一些企业级或消费级的应用,似乎很多时候真正的瓶颈并不是语音界面本身,它可能只是一个赋能工具。真正的瓶颈反而是底层的业务逻辑,或者说支撑用户对话所需的背景上下文。这种情况你们经常遇到吗?你觉得目前这些瓶颈在哪些地方正在被突破,又在哪些地方依然比较难解?
Mati Staniszewski:我们之所以能够深入了解常见瓶颈,很大程度上得益于我们工程团队经常直接与客户一起协作开发。在这个过程中,我们常常能深入理解企业在落地过程中的真实问题。以一个典型的对话式AI技术栈为例,它通常包括:STT负责理解用户说了什么,LLM生成回复内容,然后再通过TTS模块将其播报出来。再加上一个良好的轮次控制机制,这一整套系统就能支撑起一次完整的语音交互体验。
但这还只是一个基础框架。要真正生成恰当、有用的回答,系统还必须接入准确的知识库、业务规则以及上下文信息,才能知道在特定场景中该如何回应。除此之外,还要具备触发操作的能力,也就是连接到各类功能模块和系统集成接口。我们在自己的产品中已经围绕这一整套逻辑构建好了基础设施。客户可以很方便地导入知识库,启用RAG检索增强功能,并根据需求实现动态查询。同时,也可以灵活调用各种功能模块,完成完整的语音交互。
至于知识库方面,是否构成瓶颈则因企业而异。有些公司本身在数字化方面投入较大,已有比较清晰的资料结构和信息存储体系,这类客户上手很快。而另一些组织的内部知识分散、结构混乱,初期还需要我们一起制定清晰的整理策略,逐步搭建可用的基础。此外,一些标准化协议,比如MCP也正在兴起,帮助企业将内部服务模块以标准化方式暴露出来,从而简化后续对接流程。这种趋势对于整个生态系统来说是极具推动力的。
Pat Grady:你刚才提到了Anthropic。你们本身也需要接入基础模型,我猜在这中间应该也会出现一些竞争和合作关系:有时候你们在语音功能上是竞争对手,但有时候你们又一起合作,为客户提供解决方案。你是怎么平衡这种关系的?我想肯定有很多创始人也面临类似的处境,他们既依赖基础模型,又在某些维度上与基础模型公司形成竞争。所以我挺好奇,你是怎么处理这种关系的?
Mati Staniszewski:我觉得我们最大的感受是:在大多数语音对话AI的场景中,基础模型其实是互补的存在。我们一直保持中立,并不依赖某一家模型服务商。尤其是在过去这一年里,我们愈发意识到,不能把所有赌注都压在一家公司身上,而是要将多家模型整合进我们的系统中。
这背后有两个主要原因。一是,如果某个模型厂商未来转向竞争,可能会停止对我们提供服务,或者它们的产品边界变得模糊,令我们难以继续合作。虽然我们不会把任何客户数据回传给模型提供商,但这类风险还是需要提前考虑。第二个原因更实用:当你在构建一款对话式AI产品时,客户常常会有不同的LLM偏好。我们发现,更有效的做法是引入一种级联式机制:如果某个模型临时不可用,系统会自动切换到备选模型,确保服务始终稳定可靠。这个机制在实践中非常有效。所以总的来说,我们把这些模型厂商视为合作伙伴,欢迎与多方携手。如果有朝一日成为竞争对手,那也会是一场良性的竞争。
从用户体验出发:ElevenLabs如何平衡语音表现力与系统可靠性
Pat Grady:让我问一个关于产品的问题:你们的客户最在意什么?过去一年里有种常见的说法是,那些总在强调基准测试的人其实有点偏离重点了。因为客户真正关心的,往往远不止基准测试的分数。那你觉得,客户真正看重的是什么?
Mati Staniszewski:你说得没错,尤其是在音频领域,单看基准测试确实意义有限。对我们的客户来说,最重要的有三点:第一是音质,也就是生成语音的表达能力,不论是英文还是其他语言。这几乎是最关键的一项。如果音质不过关,其他一切都无从谈起。当然,不同场景下对音质的要求也不同,比如旁白、对话式Agent、配音等都有不同的质量门槛。
第二是延迟。如果语音响应不够快,根本无法实现真正流畅的对话体验。所以这时候就需要在质量和延迟之间找到一个最佳平衡。
第三是可靠性。尤其是在大规模部署时非常重要。比如我们和Epic Games合作的项目,几百万玩家同时与系统交互,整个系统依然需要保持稳定、高效运行。我们一再看到,能否稳定扩展和交付出可靠的基础设施,是能否真正落地的关键因素。
Pat Grady:我可以问一下,你认为我们距离实现高度可靠、接近甚至超越人类水平、几乎零延迟的语音交互还有多远?另一个相关的问题是:当我们逐步逼近甚至跨越这个门槛时,你们在工程上所面临的挑战性质会发生怎样的变化?
Mati Staniszewski:我们的理想目标是,今年就能实现你和一个智能Agent对话时,会觉得这就像在跟一个真人说话。我知道这个目标非常有野心,但我认为是有可能的。对,我真的觉得可能。如果不是今年,那也希望在2026年初实现。但我相信我们能做到。虽然不同类型的用户对不同语音的敏感程度不一样,但就大多数使用场景而言,我们希望今年就能达到这个标准。
目前的最大问题是:我们能否依靠现在的模型架构实现这个目标?也就是那种级联式的模型结构:语音转文字、再由LLM生成文本、再转回语音。虽然这种三段式模型可以做到不错的表现,但相比之下,另一种真正“对讲式”的模型,也就是一体化、真正实现实时双向交互的语音交互模型的响应能力更强,表现力更自然。这也是我们正在探索的方向。目前线上用的是级联模型,而接下来我们将上线的是真正的实时双向交互模型。
我们目前观察到的主要区别在于可靠性与表现力之间的权衡。延迟倒是两个模型都能做到不错。但实时双向交互模型整体响应会更快,情绪和语调表现更丰富,但可靠性可能稍弱一些;而级联模型则更稳定、也能做到非常有表现力,只是上下文响应可能稍弱,延迟也稍高。
这就是我们当前面临的重大工程挑战。现在还没有哪家公司真正把LLM和语音这两个模态融合得足够好。所以我们希望能成为第一家做到的公司,这也是我们内部的一个重要目标。我们也看到OpenAI和Meta正在做类似的探索,但我认为他们还没有真正通过图灵测试。所以我们希望能抢先做到。
语音主导的未来世界:技术融于背景、交流方式重塑与建立内容可追溯机制
Pat Grady:你刚才提到,你一直把语音视为许多技术的新默认交互方式。那你能稍微描绘一下这个画面吗?假设我们已经来到五年或十年之后的未来,你设想的未来世界会是什么样?当你们的语音模型变得足够强大,人们使用的技术和交互方式会发生怎样的变化?
Mati Staniszewski:我认为首先会出现一个很美妙的变化,那就是技术会逐渐退到后台,让你能够真正专注于学习或与他人的交流,而不是盯着屏幕。届时,语音将成为主要的访问方式。
我觉得第一个重大变革会发生在教育领域。我们每个人都会拥有一个“指导型的声音”来辅助学习,无论是学习数学、听课笔记,还是学习一门新语言、与母语者互动并纠正发音。在未来五到十年里,语音Agent将成为学习中的伙伴,这是第一个重要趋势。
第二个趋势则是文化交流方式的改变。你将可以在另一个国家用自己的声音、情感和语调与当地人交流,而对方也能准确理解你的意思。至于这项技术会以什么形式落地,是耳机、Neuralink,还是别的形式,还不好说,但它一定会到来。如果你读过《The Hitchhiker's Guide to Galaxy》,里面有个“Babel Fish”(ZP注:Babel Fish是一种只要把它塞进耳朵里,就能实时地将对方说的话自动转化为你能听懂的语言的生物)的概念。我认为,我们能真正把“Babel Fish”做出来,技术会让这一切成为现实。
Pat Grady:你提到身份认证,这其实是我正想问的问题。一个经常被提到的担忧就是声音伪造。你能谈谈你们目前是如何应对这个问题的吗?这个应对方式从早期发展到现在经历了怎样的变化?你觉得从现在开始,它的未来发展方向又会是什么?
Mati Staniszewski:是的,我们从一开始就非常重视这一点:所有在ElevenLabs生成的内容都可以追溯到生成它的具体账户。我们有一整套比较完善的机制,可以将音频输出与账户绑定,并据此采取相应行动。因此内容的可追溯性对我们来说非常重要,我认为这在未来也会变得越来越重要,因为你必须要能分辨哪些内容是AI生成的,哪些不是。甚至未来可能会进一步发展,不只是认证AI,还要认证人类本身,比如实现设备端的身份验证,比如“这是Mati正在打电话”。
第二个方面是我们如何在更广泛的层面上做内容审核,比如判断这是不是一个诈骗电话、是否使用了未经授权的声音,这些也是我们作为公司在做的事。这一机制随着时间推移也在不断演进,包括我们审核的深度和方式,比如是在语音层面还是文本层面。
第三个方面,是在我们已有的内容溯源能力基础上进一步拓展,我们正在考虑如何与其他公司合作,共同训练模型,不只用于ElevenLabs,也包括开源技术和其他商业模型。这项工作也不可避免地会演变成一场“猫鼠游戏”:攻击手段和检测技术会不断迭代。当然现在这依旧是个充满挑战的问题。但我们确实和一些公司及学术机构合作,共同推进检测模型的开发。尤其是随着我们开始推出更先进的技术,比如对话式AI,以及即将上线的新模型,我们也在花更多精力去思考:能有哪些安全机制,既让技术尽可能对好人有用,又最大程度减少坏人的滥用。这是一个持久始终存在的权衡。
立足欧洲,服务全球:ElevenLabs的国际化路径与现实制约
Pat Grady:我们可以聊聊欧洲吗?你们是远程办公的公司,但总部设在伦敦。那你觉得把公司设在欧洲,有哪些优势?又有哪些劣势?
Mati Staniszewski:这是个好问题。我觉得对我们来说,设在欧洲的最大优势是人才储备,因为这里能吸引到一些最优秀的人才。人们常说欧洲人缺乏冲劲,但我们完全没这种感觉。我们团队里的成员都充满热情,虽然团队不大,但每个人都在不断努力、拼尽全力地推动事情前进。我有幸与他们共事,他们不仅极其勤奋,水平也非常高,所以我们在团队建设方面收获了极大的惊喜。尤其是现在我们还在不断扩招,遍及整个欧洲、尤其是中东欧地区,整体的人才水平确实非常高。
第二个优势是,有一种普遍的印象是欧洲在AI创新方面落后,在很多方面这确实是事实,美国在引领,亚洲国家紧随其后,而欧洲确实稍显滞后。但我们看到人们的意愿正在发生变化,从几年前我们刚创业时的相对保守,到现在大家都很渴望参与、希望站上技术前沿。这种积极的氛围让我们能更快行动,客户也越来越愿意采用新技术,对公司发展是非常有利的。
还有一点也值得一提,虽然我们总部在欧洲,但从一开始我们就没有把自己限定在某个地区,无论是波兰公司、英国公司、还是美国公司都不重要。我们从创立之初的目标就是成为一个全球化的解决方案,不仅是部署层面,更是从产品的核心出发去服务全球,比如如何让音频技术覆盖多语言。这种全球化的思维贯穿了公司的发展脉络。而现在我们的团队成员遍布各地,他们说不同的语言,能和当地客户顺畅合作,这点也得益于我们最初身在欧洲,能更自然地优化本地化体验。
至于劣势,首先也是最明显的一个:在美国有一个极其强大的创业社区,不仅有充满干劲的人,还有很多已经经历过完整创业周期的人,他们创建过公司、成功过,或在大型公司中领导过关键职能。你可以轻松向他们请教,甚至光是身边有这样的人,都能让你知道会遇到什么问题。而在欧洲,这类人明显少得多,尤其是在创业初期,你想得到这样的经验传授会更难。当然我们很幸运,一路上有很棒的投资人支持和指导,但这一点确实是劣势。
另一个劣势是,虽然我刚提到现在欧洲的热情在提升,但过去几年其实是缺乏这种热情的。美国在过去一年中积极引领并打造了一个充满活力的生态系统,而欧洲还在寻找方向。比如在监管方面,像AI法案这种政策,不见得能起到加速作用,反而可能成为拖慢节奏的因素。虽然人们想推动发展,但现实中它确实有阻力。所以整体来看,最大优势是人才,最大劣势是缺乏成熟的创业生态和经验积累。
技术日常、行业榜样与趋势判断:Mati眼中的AI现在与未来
Pat Grady:我们来一轮快速问答吧?你个人最喜欢使用的AI应用是什么?不能是ElevenLabs或Eleven Reader。
Mati Staniszewski:虽然我的答案会随着时间不断变化,但我觉得Perplexity曾经是、现在仍然是我最喜欢的应用之一。
Pat Grady:真的吗?那对你来说,Perplexity提供了哪些能力是ChatGPT或Google所不具备的?
Mati Staniszewski:ChatGPT也非常出色。之所以我说Perplexity曾经是,是因为Perplexity过去在深入挖掘信息和追溯来源这一点上很突出,但现在ChatGPT在这方面也强了很多,所以我现在很多时候会两个都用。
如果说一个没用AI但正在往AI方向发展的应用,我一直最喜欢的还是Google Maps。我觉得它太强大了,真的非常好用。其他的话,让我看看我屏幕上还有什么其他应用。
Pat Grady:好吧,那在你查看的时候,我就去Google Maps上随便看看一些我没去过的地方打发下时间。
Mati Staniszewski:我认为Google Maps确实是一个很棒的区域搜索工具,真的很好用。
有个比较小众的应用我也挺喜欢,FYI:这是那个音乐人will.i.am创办的一个初创公司开发的应用,他们最初做的是通信类应用,现在更像是一个电台类的app。
还有Curiosity也挺不错的,Claude我也喜欢,我用Claude跟用GPT的方式不太一样,像是涉及更深一点的编码或原型设计,我都会用Claude,我真的很喜欢它。其实我最近真有一个特别喜欢的,那就是Lovable。
Pat Grady:你在ElevenLabs中的工作也会用它吗,还是只是你个人在用?
Mati Staniszewski:其实说到底,我的生活几乎就是ElevenLabs,所以这些应用我也都是在ElevenLabs工作的时候用,Lovable也是。我会用它来探索新东西,或者为客户快速搭建一个demo和原型,非常方便。所以说到底,还是和ElevenLabs有关。那你最喜欢的应用是哪个?
Pat Grady:我最喜欢的应用?关于这个昨天我们开了个团队会议,大家都查了一下过去30天内自己在ChatGPT上提交了多少次查询。我查了一下,大概是300次,我心想,还不错啊,我算是个极其活跃的用户了。Andrew差不多也是300次。但我们团队里一些年轻人,居然有一千多次。所以我以为自己是ChatGPT的高频使用者了,结果一对比发现根本不算什么。我知道ChatGPT个很普通的答案,但现在这个应用能做到的事情实在太多,真的很惊人。
Mati Staniszewski:你也会用Claude吗?
Pat Grady:我偶尔会用一下Claude,但远没有那么频繁。我每天必用的另一个应用其实是Quip。这是Bret Taylor多年前创办的一家公司,后来被Salesforce收购了。我现在大概是Quip上唯一还在活跃使用的人了,希望Salesforce别把它关掉,因为我整个人的生活都在Quip上。
Mati Staniszewski:我喜欢用Palantir。
Pat Grady:它的确很好,他们把基本功能做得非常扎实,没有被各种花里胡哨的东西拖累,就是把核心做好了,使用体验非常棒。好,进入快问环节:在AI领域你最敬佩的人是谁?
Mati Staniszewski:这个问题要快问快答地回答其实挺难的。我想我最欣赏的人是Demis Hassabis。他的表达总是直截了当,能非常深入地讲解研究内容,而且这些年他自己也做出了很多了不起的成果。现在他当然是在带团队做研究,但我特别欣赏的是他既亲自做研究,又能带领别人做研究。
而且他主导的很多项目都非常具有开创性,比如DeepMind做出的AlphaFold,它把AI推进到了生命科学的前沿,我觉得这真的是一个大家公认的里程碑。大多数人关注的是AI的某个方面,而他是想把AI真正应用到生物学这样的实际领域里。
当然,像Dario Amodei现在也在做类似的事情,我相信未来这块领域一定会出现更多变革。但回过头来看,Demis的路径确实非常独特。他早年做过游戏设计,是个非常厉害的国际象棋选手,也一直在探索如何让AI在各种复杂博弈中胜出。他具备极强的多面性,既能领导团队、推动科研方向,也本身就是一流的研究者。他也非常谦逊,而且非常坦率、有学术诚信。你会感觉,和Demis对话,他一定会给出真诚、准确的回答。总之,他真的很令人敬佩。
Pat Grady:好的,最后一个问题:谈谈你对AI未来的一些独特看法吧。有没有哪种观点是你比较坚信的,但你觉得目前还不够被重视,甚至有些反主流的?
Mati Staniszewski:我觉得我的这个答案你可能听起来有些意料之中。但我真的认为跨语言交流这一块,依然是被严重低估的。如果你能够去到任何地方,说那里的语言,对方也能真正听懂你,不论一开始是通过内容的传递,还是未来实现人与人之间的实时沟通,我觉得这会从根本上改变我们理解世界的方式。当你没法真正听懂另一个人在说什么时,那是人与人之间最大的一道障碍。当然,这里面也包括文字层面的翻译,但更重要的是语音层面的表达。而我感觉,这件事现在完全没有被足够重视,几乎没人真正关注。
Pat Grady:你觉得能实现这一点的设备现在已经存在了吗?
Mati Staniszewski:我认为还没有。
Pat Grady:你不认为手机或眼镜会是这项技术的最终的实现形式是吗?
Mati Staniszewski:我认为也许会是其他形态的设备。我觉得未来会有很多不同的形式。人们也可能会通过眼镜实现这项技术,但我认为耳机会是最先普及的一种方式,因为最简单易用。当然,眼镜的形式肯定也会出现,但我不认为所有人都会戴眼镜。然后,也许会有某种非侵入式的神经连接设备,人们在旅行时也能佩戴。这种真正实用的身体佩戴设备会很有意思。你觉得这样的使用场景是被低估了,还是已经有足够的关注了?
Pat Grady:我会把这个归为一种无感交互技术的整体理念,也就是人们能够专注于彼此交流,技术则悄然隐于背景,自动感知周围发生的事情,并利用这些上下文信息来帮助人更聪明地行动,完成任务,进行翻译等等。我完全认同这个方向符合我对未来世界的整体判断,不过我确实在想,究竟是什么样的设备形态能够真正实现它。目前很多底层支撑技术,比如业务逻辑和上下文理解,已经开始逐步成型,但设备形态本身仍有待确定。不过我确实非常认同这个趋势。
Mati Staniszewski:是啊,也许这正是它没有被足够重视的原因:以如今的技术人们没法想象它的样子。
Pat Grady:好的,Mati,非常感谢你的分享。
Mati Staniszewski:Pat,谢谢你的邀请。这次交流非常愉快,
Pat Grady:我的荣幸。
原视频:Why Voice Will Be the Fundamental Interface for Tech ft ElevenLabs’ Mati Staniszewski
https://www.youtube.com/watch?v=EWXTZZzL1vg&ab_channel=SequoiaCapital
编译:Shawn Chen
欢迎扫码加群参与讨论
--------