OpenAI 正在为其 API 引入新的转录和语音生成 AI 模型,该公司声称这些模型比以前的版本有所改进。
对于 OpenAI 来说,这些模型符合其更广泛的代理愿景:构建能够代表用户独立完成任务的自动化系统。
代理的定义可能存在争议,但 OpenAI 产品负责人 Olivier Godement 描述了一种解释,即可以与企业客户交谈的聊天机器人。
Godement 在简报会上告诉 TechCrunch:未来几个月,我们将看到越来越多的代理出现。因此,总体主题是帮助客户和开发人员利用有用、可用且准确的代理。
OpenAI 声称,其新的文本转语音模型gpt-4o-mini-tts不仅可以提供更细致入微、听起来更逼真的语音,而且比上一代语音合成模型更可控。
开发人员可以指导 gpt-4o-mini-tts 如何用自然语言说话——例如,像疯狂的科学家一样说话或像正念老师一样用平静的声音说话。
OpenAI 产品人员杰夫哈里斯 (Jeff Harris) 告诉 TechCrunch,他们的目标是让开发人员定制语音体验和语境。
与传统不同的是,OpenAI 并不打算公开其新的转录模型。该公司过去曾根据 MIT 许可发布过 Whisper 的新版本,供商业使用。
哈里斯表示,gpt-4o-transcribe 和 gpt-4o-mini-transcribe比 Whisper 大得多,因此不适合公开发布。
「它们不是那种可以在笔记本电脑上本地运行的模型,就像 Whisper 一样,」他继续说道。「我们希望确保,如果我们要以开源形式发布产品,我们会深思熟虑,并且我们有一个真正针对特定需求而精心打造的模型。我们认为,终端用户设备是开源模型最有趣的案例之一。」