Share - WeChat
世界互联网大会作为互联网领域新型国际组织,致于搭建全球互联网共商共建共享平台,为倡导科技向善,引导全球各方运用AI技术弥合数字鸿沟、提升人类福祉,发起了世界互联网大会爱(AI)公益行动计划,面向全球公开征集人工智能公益项目,首批共收到来自23个企业和组织机构的33个项目,覆盖文化交流、生物多样性保护、医疗健康、无障碍改造、教育培训、宜居环境等多个领域,体现了语音识别、图像识别、自然语言处理、态势感知等人工智能技术与具体公益场景紧密结合,提供更多样化解决方案,公益能力不断跃升的发展趋势。
微软利用语音合成技术使有声书更有温度。微软与红丹丹视障文化服务中心合作,利用深度神经网络语音合成和声音定制技术,为有声读物打造更接近真人的声音,拥有多音色、多情绪能力,让有声内容声音不再单一。在此基础上,微软文字转语音开放平台将一本有声书的制作时间从3 个月缩短到几百毫秒,从而大幅降低人力和时间成本,打破了有声内容生产的壁垒,为视障人群带来更“温暖”的阅读体验。
谷歌助力亮亮视野助听字幕眼镜,帮助听障人士平等就业。亮亮视野利用增强现实、语音识别和机器翻译等技术,开发了帮助听障人士的助听字幕眼镜。它通过将语音转化成文字在眼前展示,帮助解决听障人士因听力困扰导致的沟通问题,帮助提升听障人士在信息获取、沟通质量、心理认知、学习培训、面试就业等方面的能力。在谷歌出海创业加速器计划的支持下,亮亮视野在面向海外用户的产品中应用了Google Cloud 全球解决方案,在降低背景噪音、优化语言处理等方面得到了较大提升,实现了更为流畅的语言转录和翻译功能。
星巴克通过AI 技术在手语门店助力听障人士融合就业。星巴克和微软联合研发了天使伙伴智能辅助系统,通过深度神经网络语音合成、自然语言处理、AI 自学习等多种微软特有的认知服务科技,微软智能云及 IoT 技术,帮助星巴克听障咖啡师与客人交流,为听障咖啡师提供无障碍的工作环境,给消费者创造有爱无“碍”的点单体验,为听障群体及其社区打造包容性的人与人交流场景。
阿里巴巴达摩院数字人实现真人手语动作识别翻译。通过结合计算机视觉、机器翻译、语音技术和 3D 虚拟人等技术,阿里巴巴达摩院数字人实现了领先的纯视觉识别算法,在现实场景中对听障人士的手语动作进行时空信息捕捉,通过手语数字人“小莫”理解翻译,实现了自然语言和手语两种语言双向互译。通过小莫的手语翻译,听障人士不仅可以实现用手语进行沟通和问询,还可以在机场车站等公共场合更好“看到”手语广播通知、线上的新闻,在视频平台同步收看新闻和音视频,在旅游景点观看手语视频等。
vivo 实现语音和视频无障碍通话和环境声音感知。vivo 利用语音识别、语音合成技术,推出“无障碍通话功能”,实现通话场景和社交平台视频场景下的语音、文字互转,帮助听障用户和亲朋好友顺畅的电话或视频连线。“vivo 听说”帮助听障用户顺畅的面对面沟通,听的懂、说得清,配合多音字、韵律、多情感音色等优化措施,帮助听障用户更好的表达情感。基于语音增强和语音识别技术,vivo 自研语音识别率超90%。“声音识别”功能利用环境音感知技术,结合手机等外设,将婴儿哭声、烟雾报警声、汽车鸣笛声等转化为可感知的视觉、触觉信号,帮助听障人士识别生活中那些重要且关乎安全的声音。
腾讯算法赋能助听器企业解决“听不清”难题。听障人群虽然通过辅听设备重获听力,但在嘈杂环境下仍难以听清,腾讯以心理声学的发音和听觉模型为基础,融合感知编码,经典语音信号和深度学习技术的音频处理和编解码系统,为听障人群提供高清、纯净、流畅的音频通信体验。该技术在人工耳蜗和助听器降噪、AI 辅听和字幕识别优化等场景已面向社会责任领域开发者、厂商及合作伙伴开放,共同提升助听辅听设备降噪效果,改善佩戴者的使用体验。
美团利用语音识别与处理技术开展适老化改造。美团运用语言识别与处理技术,将输入、选择商品、下单支付等对老年人来说复杂的操作转化为语音指令,老年用户只需说出“下单”等指令,就能完成在线药师咨询和买药,帮助老年人享受智能化服务带来的便捷。
2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。