首页 >  新闻中心 > 行业新闻

Share - WeChat

美东时间3月20日

OpenAI发布三款语音模型

语音转文本模型GPT-4o-Transcribe

和GPT-4o-Mini-Transcribe

文本转语音模型GPT-4o-MiniTTS

 

OpenAI一口气发布三个新模型!

图源:OpenAI

 

据了解,语音转文本模型

准确率大幅提升

在英语、西班牙语中

单词错误率仅约2%

在普通话中的错误率约为7%

此外,文本转语音模型

能提供更逼真的语音

开发人员可指导它

用自然语言说话

 

AI模型能get到人说了什么

 

新推出的两款语音转文本模型

相较于OpenAI此前发布的Whisper

准确度明显更高

并在多种语言中实现了

更低的单词错误率

 

OpenAI一口气发布三个新模型!

新模型在多种语言中的错误率都明显更低。

图源:OpenAI

 

OpenAI产品人员介绍

新模型支持超100种语言

利用了多样化、高质量音频数据集

进行训练

即使在嘈杂的环境中

也可以更好地捕捉

口音和不同语速的语音

 

至于大家关注的AI幻觉问题

OpenAI还是以Whisper为参照物

表示新模型在工作中

产生幻觉的概率降低了

产品人员表示

“准确性

意味着模型准确地听到了单词

(并且)没有填写他们没有听到的细节”

 

AI模型说话有了更多“语气”

 

此次新发布的文本转语音模型

不仅能提供听起来更逼真的语音

而且比前一代语音合成模型

“可操控性”更强

 

例如

开发人员可以发出

“模拟耐心客服”或

“进行生动故事叙述”等指令

控制语音风格

 

OpenAI一口气发布三个新模型!

图源:IT之家

 

OpenAI产品人员表示

他们的目标是

让开发者能够定制

语音“体验”和“环境”

以便在不同的情况下

使声音表达出不同的情感

更好地应用于

客服和创意内容等方面

 

距离AI“真情流露”更进一步

 

今年AI的风向也在悄然变化

除了依旧强调智商

还多出一股趋势

——强调情感

 

图灵奖得主杨立昆

在2024年底接受采访时表示

未来的AI系统需要具备情感

以便更好地设定目标和理解后果

 

OpenAI一口气发布三个新模型!

  在2024年世界互联网大会“互联网之光”博览会上,参观者与一款人形机器人握手。

图源:新华社

 

GPT-4.5、Grok 3

纷纷以“情商”作为卖点

让写作更有创意、回应更个性化

而看似冷冰冰的机器人

也在强调拟人

通过行为传递情绪价值

 

由于语言触及了

人类本能的沟通方式

AI语音领域在表现情感方面

发力更加显著

 

最近“走红”的Sesame AI

能够实时感知用户情绪

并生成情感共鸣的回应

迅速俘获了一大批用户的心

 

此次OpenAI发布的产品

提升了语音处理能力

支持开发者构建

更精准、可定制的语音交互系统

进一步推动

人工智能语音技术的商业化应用

 

OpenAI一口气发布三个新模型!

图源:新华社

 

近日

美国科技巨头Meta也透露

计划在即将推出的

开源大语言模型Llama 4中

引入更强大的语音功能

并且其语音功能将是原生的

更接近自然的双向对话

而非传统的问答模式

Meta希望借此推动

AI技术的商业化发展

 

参考丨央广网、财联社、华尔街见闻、腾讯科技、36氪、IT之家

2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。