2021-08-11 14:49:08 来源 : IT专家网
在2021年国际口语机器翻译评测比赛(简称IWSLT)上,科大讯飞与中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队在同声传译任务(Simultaneous Speech Translation,简称同传)中包揽三个赛道的冠军。这是继2018年在IWSLT比赛中获得语音翻译端到端冠军之后,科大讯飞再次以实际行动证明了其在语音翻译和机器同传领域的国际领先地位。
IWSLT是国际上最具影响力的口语机器翻译评测比赛之一,针对语音翻译实际应用面临的难题,通过每年设定一些研究任务,并向外界提供公开的数据集合,吸引全球各地的科研团队参与比赛,以此推动语音翻译技术创新和知识共享。大赛至今已经举办18年,在业界颇具话语权。
今年的IWSLT为考察不同语言对语序的影响,以及语音同声传译整体性能,在同声传译任务中共设置了三个赛道:一是英德文本同传,实时地将真实的文本翻译成目标语言文本;二是语序差异较大的英日文本同传;三是英语到德语的语音同传,实时地将语音翻译成目标语言文本。
本次比赛针对“翻译质量”和“翻译延迟”两个维度进行评测。英国爱丁堡大学(UEDIN)、德国AppTek公司(APPTEK)、日本奈良先端科学技术大学院大学(NAIST)、字节跳动火山翻译团队(VOLCTRANS)和科大讯飞-中科大联合团队(USTC-NESLIP)等多支队伍参与其中。
翻译效果-延迟曲线(英德文本同传)
最终,科大讯飞团队在以上三个赛道均取得第一名。根据科大讯飞本次提交的最终系统效果,在低中高三个延迟区间上都显著优于其他系统,尤其是在低延迟区间的突出表现,对于进一步推动机器同传的商业落地颇具价值。
表1 英德文本同传效果排名
表2 英日文本同传效果排名
表3 英德语音同传效果排名
科大讯飞创新性的提出Cross Attention Augmented Transducer(CAAT)同传架构,针对同传任务中翻译质量和延迟这两个评价目标,借鉴语音识别中部分模型的优化方式,它实现了将动态的同传策略和翻译模型联合优化,从而在延迟-翻译质量之间找到了更好的平衡。
相比目前主流的机器翻译技术,CAAT避免了固定延迟导致的延迟过大或翻译质量下降的问题,在相同延迟下取得翻译质量的明显提升。除了这一模型结构的创新外,针对任务中语音翻译数据量有限这一问题,讯飞还从模型融合、数据增强等策略上进一步优化。
CAAT模型结构
用AI创新打破沟通屏障
依托科大讯飞在机器翻译和语音同传领域的深耕,讯飞听见也在积极的推动技术走向落地,讯飞听见同传产品即是重要应用。
讯飞听见同传能够广泛应用于会议办公、展厅、跨国交流、线上线下会议、发布会等多类会议场合,具有离线单机版和在线客户端两种产品形态。
依托科大讯飞的语言转写、机器翻译、语音合成等核心技术,提供9国语种的语音识别和机器翻译,并辅以AI字幕投屏、多语种会议记录、机器学习和优化等功能,支持通过手机扫码收看会议记录、收听会议内容和多语种语音合成播报,可搭配专业人工同传译员进行使用。
讯飞听见同传离线单机版
讯飞听见同传在线版客户端
讯飞听见同传能够协助解决多语种场景下的会议交流,支持中、英、日、韩、法、西、德、俄、阿9国语种的识别和翻译,通过AI语音技术减少资源成本,加强会议沟通交流。
截止目前,讯飞听见同传已服务大会超10000场次,服务覆盖人群超3亿人次,已连续5年为全国“两会”提供智能会议记录服务。 讯飞听见智能会议系统累计覆盖1000余家企业单位,讯飞听见会议累计服务1000000次远程视频会议。讯飞听见网站及APP为近1500万用户提供智能转写及翻译服务,累计转写时长超3866万小时,为听障群体定向捐赠时长超1400万小时。
讯飞听见同传为WAIC2021提供转写翻译服务
秉持创新和坚守,共建美好未来
在目前看来,机器同传技术相比人工同传依然存在很多不足,比如人工同传对表达的语义理解更准确,翻译更地道,机器容易出现直译问题;虽然人工同传会对发言人内容进行删减,但核心内容不会丢失,但机器容易出现识别和翻译错误等问题。 本次科大讯飞在IWSLT 2021同传任务上的技术突破不是终点,而是新的起点,后续科大讯飞仍将继续用严谨的科学精神,专注核心技术研发,提升在语音翻译和机器同传领域的核心竞争力,进一步迭代提升机器同传的性能和效果。用人工智能让世界沟通无障碍。
标签: