Share - WeChat
美东时间3月20日
OpenAI发布三款语音模型
语音转文本模型GPT-4o-Transcribe
和GPT-4o-Mini-Transcribe
文本转语音模型GPT-4o-MiniTTS
图源:OpenAI
据了解,语音转文本模型
准确率大幅提升
在英语、西班牙语中
单词错误率仅约2%
在普通话中的错误率约为7%
此外,文本转语音模型
能提供更逼真的语音
开发人员可指导它
用自然语言说话
AI模型能get到人说了什么
新推出的两款语音转文本模型
相较于OpenAI此前发布的Whisper
准确度明显更高
并在多种语言中实现了
更低的单词错误率
新模型在多种语言中的错误率都明显更低。
图源:OpenAI
OpenAI产品人员介绍
新模型支持超100种语言
利用了多样化、高质量音频数据集
进行训练
即使在嘈杂的环境中
也可以更好地捕捉
口音和不同语速的语音
至于大家关注的AI幻觉问题
OpenAI还是以Whisper为参照物
表示新模型在工作中
产生幻觉的概率降低了
产品人员表示
“准确性
意味着模型准确地听到了单词
(并且)没有填写他们没有听到的细节”
AI模型说话有了更多“语气”
此次新发布的文本转语音模型
不仅能提供听起来更逼真的语音
而且比前一代语音合成模型
“可操控性”更强
例如
开发人员可以发出
“模拟耐心客服”或
“进行生动故事叙述”等指令
控制语音风格
图源:IT之家
OpenAI产品人员表示
他们的目标是
让开发者能够定制
语音“体验”和“环境”
以便在不同的情况下
使声音表达出不同的情感
更好地应用于
客服和创意内容等方面
距离AI“真情流露”更进一步
今年AI的风向也在悄然变化
除了依旧强调智商
还多出一股趋势
——强调情感
图灵奖得主杨立昆
在2024年底接受采访时表示
未来的AI系统需要具备情感
以便更好地设定目标和理解后果
在2024年世界互联网大会“互联网之光”博览会上,参观者与一款人形机器人握手。
图源:新华社
GPT-4.5、Grok 3
纷纷以“情商”作为卖点
让写作更有创意、回应更个性化
而看似冷冰冰的机器人
也在强调拟人
通过行为传递情绪价值
由于语言触及了
人类本能的沟通方式
AI语音领域在表现情感方面
发力更加显著
最近“走红”的Sesame AI
能够实时感知用户情绪
并生成情感共鸣的回应
迅速俘获了一大批用户的心
此次OpenAI发布的产品
提升了语音处理能力
支持开发者构建
更精准、可定制的语音交互系统
进一步推动
人工智能语音技术的商业化应用
图源:新华社
近日
美国科技巨头Meta也透露
计划在即将推出的
开源大语言模型Llama 4中
引入更强大的语音功能
并且其语音功能将是原生的
更接近自然的双向对话
而非传统的问答模式
Meta希望借此推动
AI技术的商业化发展
参考丨央广网、财联社、华尔街见闻、腾讯科技、36氪、IT之家
2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。