中文 / English

首页 > 新闻中心 > 行业新闻

OpenAI一口气发布三个新模型！

2025-03-21来源：世界互联网大会

Share - WeChat

美东时间3月20日

OpenAI发布三款语音模型

语音转文本模型GPT-4o-Transcribe

和GPT-4o-Mini-Transcribe

文本转语音模型GPT-4o-MiniTTS

OpenAI一口气发布三个新模型！

图源：OpenAI

据了解，语音转文本模型

准确率大幅提升

在英语、西班牙语中

单词错误率仅约2%

在普通话中的错误率约为7%

此外，文本转语音模型

能提供更逼真的语音

开发人员可指导它

用自然语言说话

AI模型能get到人说了什么

新推出的两款语音转文本模型

相较于OpenAI此前发布的Whisper

准确度明显更高

并在多种语言中实现了

更低的单词错误率

OpenAI一口气发布三个新模型！

新模型在多种语言中的错误率都明显更低。

图源：OpenAI

OpenAI产品人员介绍

新模型支持超100种语言

利用了多样化、高质量音频数据集

进行训练

即使在嘈杂的环境中

也可以更好地捕捉

口音和不同语速的语音

至于大家关注的AI幻觉问题

OpenAI还是以Whisper为参照物

表示新模型在工作中

产生幻觉的概率降低了

产品人员表示

“准确性

意味着模型准确地听到了单词

（并且）没有填写他们没有听到的细节”

AI模型说话有了更多“语气”

此次新发布的文本转语音模型

不仅能提供听起来更逼真的语音

而且比前一代语音合成模型

“可操控性”更强

例如

开发人员可以发出

“模拟耐心客服”或

“进行生动故事叙述”等指令

控制语音风格

OpenAI一口气发布三个新模型！

图源：IT之家

OpenAI产品人员表示

他们的目标是

让开发者能够定制

语音“体验”和“环境”

以便在不同的情况下

使声音表达出不同的情感

更好地应用于

客服和创意内容等方面

距离AI“真情流露”更进一步

今年AI的风向也在悄然变化

除了依旧强调智商

还多出一股趋势

——强调情感

图灵奖得主杨立昆

在2024年底接受采访时表示

未来的AI系统需要具备情感

以便更好地设定目标和理解后果

OpenAI一口气发布三个新模型！

　　在2024年世界互联网大会“互联网之光”博览会上，参观者与一款人形机器人握手。

图源：新华社

GPT-4.5、Grok 3

纷纷以“情商”作为卖点

让写作更有创意、回应更个性化

而看似冷冰冰的机器人

也在强调拟人

通过行为传递情绪价值

由于语言触及了

人类本能的沟通方式

AI语音领域在表现情感方面

发力更加显著

最近“走红”的Sesame AI

能够实时感知用户情绪

并生成情感共鸣的回应

迅速俘获了一大批用户的心

此次OpenAI发布的产品

提升了语音处理能力

支持开发者构建

更精准、可定制的语音交互系统

进一步推动

人工智能语音技术的商业化应用

OpenAI一口气发布三个新模型！

图源：新华社

近日

美国科技巨头Meta也透露

计划在即将推出的

开源大语言模型Llama 4中

引入更强大的语音功能

并且其语音功能将是原生的

更接近自然的双向对话

而非传统的问答模式

Meta希望借此推动

AI技术的商业化发展

参考丨央广网、财联社、华尔街见闻、腾讯科技、36氪、IT之家

2022年7月12日，世界互联网大会国际组织正式成立，从互联网领域的国际盛会发展为国际组织，总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台，推动国际社会顺应信息时代数字化、网络化、智能化趋势，共迎安全挑战，共谋发展福祉，携手构建网络空间命运共同体。