Share - WeChat
近日
据媒体报道
OpenAI面向开发者
正式发布
三款全新高阶语音智能模型

OpenAI发布三款模型
据媒体报道
OpenAI发布的这三款模型
全面强化了
AI实时听觉
口语交互
翻译与转录能力
同时大幅降低了
企业开发智能语音应用的
技术门槛

旗舰模型
GPT-Realtime-2
具备GPT-5级别的推理能力
可高效处理各类复杂请求
实现自然连贯的实时对话
支持工具调用
可灵活处理
对话中的打断与更正
GPT-Realtime-Translate
以实时翻译为核心优势
支持70+种语言识别
13种语言语音输出
可接近同声传译效果
适配跨语言通话
会议等多元场景
GPT-Realtime-Whisper
聚焦低延迟语音转写能力
在用户发言的同时
即时完成转录
适配直播字幕
会议记录等高频场景

OpenAI表示
本次升级的智能语音系统
实用性显著提升
应用场景广泛
商业化空间广阔
语音交互成AI竞争前沿
传统的语音识别
主要是把声音转换成文字
然后对文字进行处理
随着AI的发展
近年来
实时语音交互已成为
大模型竞争核心赛道
全球多家厂商均有布局

百度推出端到端语音大模型
支持低延迟实时交互
对话自然流畅
阿里通义推出Fun-Audio-Chat模型
主打语音对语音交互
兼顾低算力成本与交互体验
科大讯飞星火同传大模型
可实现近同声传译
覆盖多领域专业术语
Google、Meta等
推出实时语音模型
在低延迟、多语种交互
持续发力
……
有分析认为
当前
大模型整体性能
不再是行业竞争的主要焦点
真实交互体验
与应用场景优化
开始变得越来越重要
这也让语音交互成AI竞争新前沿
但也有分析指出
语音交互领域仍面临多重挑战
如延迟与自然度难以平衡
噪声、口音下识别准确率不足
模型幻觉影响使用可靠性
算力消耗高等
2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。