2021年10月24日,云上曲率正式发布多语言实时语音互动Demo,通过Demo我们实现了不同语言用户间的语音互动交流,这是语音互动在多语言场景下从无到有的技术突破,让来自不同国家或地区的用户从依赖文本翻译中解放出来,感受语音互动的便捷性。 多语言实时语音互动,是指在实时通话场景,说话人使用A语言发出语音,语音最终翻译为B语言的文字,并由机器合成为B语言的语音,且合成语音能准确表达原语音含义,被接收者所听懂。
让我们结合视频,感受下这项技术的魅力。
多语言实时语音互动方案简介
用户发出的声音被采集后,经回声与噪声消除、音量自动增益、静音时段剔除等预处理,得到高质量语音;之后进入语音识别、机器翻译、语音合成引擎,得到对应语言的合成语音。
RTC传输,在整个过程中解决高并发、数据传输路线规划、传输时延优化、抗网络抖动与丢包等传输基础问题。
多语言实时语音互动技术优势
全球多语言实时语音互动先行者在游戏或虚拟现实互动场景,语音互动解放了双手,更快更高效。云上曲率融合自研的实时语音与NLP(自然语言处理)技术,实现沉浸式线上社交互动体验在多语言方向从无到有的突破。顶尖的自然语言处理技术多语言实时语音互动技术的“舞台中心”,是自然语言处理,包括语音识别、机器翻译、语音合成等服务模块。云上曲率实时翻译(Livedata Translation)基于自研的NMT神经网络翻译技术,具备强大的智能文本纠错模型,通过在泛娱乐场景海量语料积累,在俚语、缩略语等传统翻译难题表现优异,口语化翻译已经全球领先。而口语化场景表现优异,意味着能更准确传达说话者的语音原意。
支持语言(24种):英语、日语、韩语、中文(简体)、中文(繁体)、印尼语、菲律宾语、泰语、越南语、阿拉伯语、德语、俄语、荷兰语、法语、希腊语、意大利语、挪威语、波兰语、葡萄牙语、西班牙语、瑞典语、土耳其语、印地语、马来语。
全球部署,一站式解决方案
多语言实时语音互动,还需解决如下核心问题,才能创造优质的用户体验。
如果用户来自不同的国家或地区,首先要打破区域阻隔;
用户的网络环境参差不齐,高峰期大规模用户互动对服务器造成高并发压力,需保证流畅的音频数据流传输;
语音经过数据预处理、语音识别、机器翻译以及语音合成等模块的处理时延与稳定性;
解决嘈杂环境中语音通话质量的问题。
实时信令服务覆盖全球200+国家与地区,拥有媲美专线网络的传输质量,基于微服务的分布式架构与自研高性能的RPC框架FPNN(有关FPNN的介绍可见文章末尾推荐),规划更高效的数据传输路径,不在数据拥塞中浪费时间,保证全球传输时延平均低于100毫秒,并能够应对活动高峰期的千万级高并发请求。支持可靠传输的UDP协议,有效优化弱网环境用户体验。
而自研一站式解决方案的优势,就是让实时语音传输与预处理、语音识别、机器翻译、语音合成等核心服务模块紧密协作,“步调一致”,有效降低多方接入引起的“系统摩擦”,降低“语音转语音”系统处理时延。
通过3A算法,消除噪声与回声带来的负面体验,实现音量自动增益控制,有效提升语音通话质量。
多语言实时语音互动的星辰大海
看到多语言实时语音互动技术,我们很难不想起同声传译。这是个供需缺口极大,专业性要求极高的职业,全球从业者寥寥数千人,稀缺到只能在顶级国际会议中听到他们的声音。备注:同声传译,是指翻译人员在不打断讲话者讲话的情况下,不间断地将内容口译给听众的一种翻译方式。
旧时王谢堂前燕,飞入寻常百姓家。那些曾经少数人才能获得的便利与资源,正在工业化复制,让更多人受益。正如机器翻译,使得跨语言交流不再是少数人的专利,更多的人可以参与到全球的文化交流中来。互联网时代,全世界每时每刻发生的互动,机器翻译正在替代人类的部分器官功能,并超越人类,永远孜孜不倦地服务于人类。备注:诗句作者刘禹锡并非表达“曾经稀缺的事物如今普及到大众”这个主旨,这里笔者认为比较形象,故引用。正是这些技术的出现,语言沟通的壁垒不再,新的交流场景打开,全球文化交流将在这样的基础设施建设中加速,想象空间是巨大的。
云上曲率Livedata(北京云上曲率科技有限公司)是一家领先的全球实时互动与人工智能解决方案服务商。我们以“让全球用户享受愉悦有趣的社交体验“为愿景,致力于为社交、游戏等泛娱乐领域客户提供一站式解决方案,产品服务包括全球实时信令服务(RTM)、机器翻译、多语言内容审核、多语言智能客服等等。核心团队成员在泛娱乐行业的多语言互动技术方面已有十几年的深厚技术沉淀。凭借过硬的技术实力,目前已服务于绿洲游戏、紫龙互娱、4399、中手游、TT语音、赤子城、LivU、盖娅互娱、小米等标杆客户。