【环球网综合报道】在刚刚落幕的冰雪赛事中,百度智能云曦灵为央视新闻打造的AI手语主播正式上岗,她以流畅、专业的手语服务实时传递冰雪运动的激情。然而在日常生活中,听障人士想要方便地获取信息仍面临着众多困难,无障碍窗口稀缺的问题亟待解决。
3月3日,百度智能云曦灵正式发布“AI手语平台”,可实现分钟级生成手语合成视频、手语主播实时直播等能力,为手语服务普及的难题提出了科技新解法。同时百度智能云曦灵还发布了“AI手语平台一体机”,可以通过规模化部署快速建立无障碍窗口,插电即用、操作简单,适用于医院、银行、车站等多种公共场合,缓解无障碍窗口短缺困境。
百度集团副总裁吴甜表示,人工智能呈现融合创新和降低门槛的新特点,综合运用多技术的数字人带来新体验,AI加持使数字人制作和运营成本与门槛降低,AI手语平台将让更多听障人士享受科技带来的便利。
+一体机,随时随地构建“无障碍窗口”
目前我国听力语言残疾人达到2780万以上,而专业的手语翻译不足1万人,巨大的需求缺口亟待补足。
在国家发布的《无障碍环境建设“十四五”实施方案》中,明确提出要完善无障碍基本公共服务体系、加强信息无障碍服务深度应用。百度智能云曦灵此次发布的“AI手语平台”及“AI手语平台一体机”,可以轻松在线上线下不同场景中快速实现手语翻译服务,助力无障碍环境的建设。
针对线上场景,“AI手语平台”具备“视频手语合成”、“直播手语合成”、“文本转手语”、“语音转手语”四大功能,只需几小时的部署,即可实现普通视频合成为手语视频、实时直播中增加手语画面、文字翻译为手语、语音实时翻译为手语等多种效果。AI手语平台可搭载在各类APP、网站、小程序中,让听障人士也能轻松实现线上社交、娱乐休闲、课程学习等各类需求。
对于诸如医院、银行、机场等线下场景,一体化产品的优势正在逐渐放大。百度智能云曦灵此次发布的全离线一体机V3以及端云结合一体机P3,搭载了“AI手语平台”的核心功能,可实现ASR语音识别、语音翻译、人像渲染等多功能,让“AI手语平台一体机”像手机、电脑一样可快速、批量的生产,并渗透到生活的各个角落。
未来通过“AI手语平台一体机”即可将普通服务窗口直接转换为“无障碍窗口”,听障人士在医院可轻松实现挂号、看诊、缴费、取药等全系列流程,在车站、机场可独立完成值机、托运、改签、中转,在法院、警局等特殊场景中也可对各类紧急情况进行实时平等的沟通。
和传统翻译相比,手语翻译过程更为复杂,主要在于手语翻译并非按照日常说话的顺序逐字翻译,而要根据语句意思进行语言精炼和语序调整。手语是真正的小语种,数据量难以支撑训练,各类场景声学环境复杂难部署,还需要唇语及表情的配合辅助理解,对AI手语平台的构建提出层层挑战。
想实现高可懂度的AI手语能力要解决三大技术点:语音识别的清晰度、手语翻译的准确度、手语动作的流畅度。在经过开幕式、赛事播报等重重考验,AI手语主播也印证着“AI手语平台”已成功解决这三大难题,以行业领先的全链路AI能力实现“听得清”、“翻得准”、“打得好”的手语服务。
首先,在语音识别清晰度上,百度智能云曦灵-AI手语平台通过SMLTA语音识别算法模型,实现声学、语言一体化端到端建模语音识别,在手机端近场语音识别率可达98%以上。百度语音技术部总监高亮表示,基于百度自研的深度学习算法,还可针对诸如旅游、医院、司法等不同领域的词准率进行针对性训练,词准率可达96%,使得AI手语平台一体机更好地应用于不同场景中。
其次,在手语翻译的准确度及精炼度上,百度人工智能技术委员会主席何中军表示,百度研发了首个基于神经网络的精炼度可控手语翻译模型,并联合手语语言学专家、特殊教育专家以及天津理工大学聋人工学院等制定了自然手语标注规范,建设了大规模自然手语翻译语料库,使得模型可以从真实数据中学习手语翻译知识,比如语序的调整、词语的映射以及长度控制等,从而生成符合听障人群习惯的自然手语。
天津理工大学聋人工学院副院长袁甜甜在发布会上分享到,聋人学生更能感同身受,不错过每一个细节。由于时间紧任务重,学生们还自发呼吁其他各高校近五百名聋人学生共同完成语料库的标注,以责任感和荣誉感为弥补社会信息鸿沟做出努力。
最后,在手语动作的流畅度上, AI手语平台通过“动作融合算法”, 基于《国家通用手语词典》规范精修近11000多个手语动作,让每一个动作的起落之间自然衔接,带来真人手语般地连贯性表达。再配合4D扫描技术训练,使得AI手语数字人表情自然生动,口型生成准确度高达98.5%。
在会后的体验中记者看到,只需要将录制好的视频传输到 “AI手语平台”,经过处理就能够输出已经融合了手语翻译的视频,进行传播十分方便。而在工作人员的演示中,只需要对着话筒说话,稍后屏幕上的数字人就能以手语将语义翻译出来。不过工作人员介绍说,这一功能目前还不完善,仍处于继续开发中。
相关负责人表示,百度智能云曦灵的 “AI手语平台”现阶段还主要以服务机场、火车站、医院或者媒体机构的公共需求为主,语言与手语的实时翻译功能还会继续努力开发,当有最新进展之后会及时向社会公布,希望能够帮助听障人群能够更顺畅地进行日常沟通。
无障碍环境建设直接决定着残障人士的生活质量,也是国家及社会文明的标志。百度智能云曦灵“AI手语平台”及“AI手语平台一体机”的发布,将快速解决各类场景中无障碍窗口稀缺的问题,助力社会文明及美好生活的持续构建。