京东深耕语音技术研究 4篇论文入选国际语音顶会INTERSPEECH 2020

更新日期:2022年06月07日

       自2017年全面向科技转型以来, 京东不仅用科技重塑零售生态, 更突破零售边界,

将科技拓展至数字科技、物流、健康等诸多领域。 但由于与零售的密切关系, 大部分消费者只体验到京东在购物、物流等环节的技术进步。 事实上, 除了这些常见的场景外, 京东的语音技术还有成熟的应用领域, 比如京东的智能客服、京东的大规模出境物流等。 语音技术的相关研究也取得了重大进展, 获得了国际认可。
        举世瞩目的第21届国际语音通信大会INTERSPEECH2020在上海召开。 作为国际语音通信协会(ISCA)主办的顶级国际会议,

INTERSPEECH是国际公认的语音领域两大顶级会议之一。 会议共收到有效论文2140篇, 接收论文1022篇, 涵盖语音、信号处理、口语处理等方面。 京东人工智能研究院共收录4篇论文, 其中独立发表3篇, 与德克萨斯大学达拉斯分校联合发表1篇,

涵盖语音识别、语音增强、声纹识别、语音合成等多个领域的创新突破 技术方向。 声源定位、增强和识别是涉及人机交互、语音增强、数字信号处理等的重要技术, 在智能家居、智能安防等领域具有重要的应用价值。
        在实际应用中, 噪声和混响的存在往往会导致算法性能的下降, 尤其是在室内环境中, 混响、多源混响等干扰尤为明显。 如何有效利用麦克风阵列和传统声学处理方法, 结合深度神经网络, 提高复杂环境下声源定位、增强和识别任务的性能, 具有重要的科学意义和应用价值。 针对声源定位识别问题, 京东人工智能研究院在论文《SoundEventLocalizationandDetectionBasedonMultipleDOABeamformingandMulti-taskLearning》中提出了一种基于多方位波束成形和多任务学习的声音事件检测定位方法。 神经网络提供更丰富的信息。 具体地, 通过形成指向不同预定方位的固定波束, 可以提取每个方位的声源信号, 并且可以抑制该方位之外的干扰信号。
        该方法无需事先声源定位或掩蔽估计即可获得差异化和多样化的声学空间表示。 根据对 DCASE2019 声音事件检测和定位数据集的评估, 表明该算法取得了最佳的整体性能。 为了减少混响增强语音, 京东人工智能研究院与国际语音通信协会主席约翰·汉森的研究小组合作, 与德克萨斯大学达拉斯分校联合发表了《SkipConvNet: SkipConvolutionalNeuralNetworkforSpeechDereverberationusingOptimallySmoothedSpectralMapping》, 提出使用 全卷积神经网络提高 减少语音混响, 提高语音识别和说话人识别性能。 基于“SkipConvNet”去混响算法, 将UNet的每个跳转层连接替换为多个卷积网络, 为解码器提供更直观的信息表示。 论文还提出了一种基于最优平滑功率谱估计的预处理步骤, 以提高在复杂条件下表达语音功率谱的能力。 实验结果表明, 该方法在客观语音质量评估方面明显优于基线系统, 显着提高了混响条件下语音识别/说话人识别的评价指标。 语音识别和声学前端处理的技术进步为语音交互成为人机交互的重要入口提供了技术支持。 然而, 仅仅识别指令的内容是不够的。 真正的智能交互的基础是机器能够识别和区分说话者的身份, 这需要借助声纹识别技术。 在《TheJDAISpeakerVerificationSystemfortheFFSVC2020Challenge》一文中, 京东AI基于FFSVC2020大赛提供的共计120名发言者的1100小时数据, 提出了多套远场说话人识别数据增强方案。 首先, 通过波束成形、信道切换、去混响等技术, 将远场数据转换为近场数据; 其次, 通过估计FFSVC2020近场对远场数据的房间脉冲响应, 并通过仿真产生大量房间脉冲响应, 我们加入卷积噪声, 将近场数据变换到远场; 最后, 基于记录的大量环境噪声, 进一步在近场数据上叠加了加性噪声。 本文对上述数据增强方案的性能进行了详细的测试, 实验结果验证了系统性能可以大幅度提升。
        除了对语音识别的技术能力进行深入研究外, 京东还在语音合成的推理速度上进行了更多的探索。 在《EfficientWaveGlow:AnImprovedWaveGlowVocoderwithEnhancedSpeed》一文中, 京东提出了EfficientWaveGlow框架。 与传统的 WaveGlow 框架一样, EfficientWaveGlow 使用归一化流作为网络框架, 每个流操作由一个仿射耦合层和可逆的 11 个卷积层组成。 通过改进EfficientWaveGlow, 京东在没有明显音质下降的情况下, 实现了CPU推理速度提升6倍、P40显卡推理速度提升5倍。 京东语音技术的国际认可与其对技术研发的重视是分不开的。 这些技术将进一步提升京东的智能语音能力。 目前, 京东智能语音技术已在智能外呼机器人、客服语音机器人等电话交互场景中实现成熟应用。 在科技的加持下, 京东不仅将巩固自身在零售生态圈的实力和地位, 还将通过科技赋能金融、医疗、教育、健康等行业, 为更多用户提供便捷服务。

Copyright © 2002-2012 天成传媒有限公司 tianchengchuanmeiyouxiangongsi ,All Rights Reserved (www.ifpfestivalforum.com) ICP备案号:闽J1-20127969-2