联盟动态

News & Events

深话AI 智能语音技术应用沙龙丨第一期沙龙活动回顾(报告下载)

Oct 27, 2020

图片1.png

2020年10月23日,深话AI 智能语音技术应用沙龙”第一期沙龙活动--“声纹识别,听音识人”在线上成功举办,本次沙龙由中国信息通信研究院云计算和大数据研究所(CAICT)主办,北京希尔贝壳科技有限公司和北京得意音通技术有限责任公司联合主办,中国人工智能产业发展联盟(AIIA)开源开放推进组和评估工作组承办,邀请了领域内嘉宾对声纹识别的技术应用、数据构建和产业发展进行分享与探讨。沙龙由中国信通院云大所智能语音项目高级主管李荪主持。

  李祥——建信金融科技有限公司广州事业群业务经理.png

建信金融科技有限公司 李祥

从技术到落地:金融领域声纹应用及展望

建信金融科技有限公司广州事业群安全专家李祥分享了中国建设银行在声纹识别技术上的应用、合作、探索和体会。首先他回顾了中国建设银行手机银行声纹识别技术在声纹登录、转账、支付、取款等场景的落地应用。然后简述相关声纹科研成果商用化民用化的转化过程,他认为在产品上商用民用更注重客户的需求、产品操作的流程和客户体验,这必然要进行思维和技术的转变。在未来,将逐步落实一句话转账的身份认证和业务流程相融合的应用场景、拓宽建行声纹部署的渠道、探索非语音动态码的自然语言身份认证,以及推出多生物特征融合的联合验证产品。在特定金融业务场景下,也将开发说话人的音频情绪识别应用,给出相应的情感类别和指数,调整下一步交互流程和体验。最后他表示建设银行将持续关注行业研究院及头部公司的最新进展,不断推动声纹识别技术在行业中的应用发展。

20201027180107.png

中国电信研究院 林悦

语音结构化处理技术在电信业务中的应用探讨

中国电信研究院技术总监林悦分享的主题是《语音结构化处理技术在电信业务中的应用探讨》,ICT行业的各类客服系统、业务系统中积累了海量的语音数据及关联业务数据,智能语音技术对数据进行业务挖掘,精准营销服务于业务平台,将有助于企业提升服务质量。首先,在分享中他介绍了语音结构化的技术框架,业务系统将语音以文件或音频流的方式导入语音结构化平台,经过多层多维度的流程化预处理,对语音数据进行声纹与文字的识别与分析,实时获取到语音的特征属性与业务信息,后加工转入或展现个性化服务内容。其次,对于语音结构化在业务场景上的探索他提到了两点,一是智能客服基于结构化数据可进行智能转接和无感知身份核验,降低用户交互复杂度,提升用户体验;二是公安司法、移动支付等行业应用,其中公安司法可利用语种识别、内容识别、声纹识别等技术进行实时预警,提升社会治安动态管控能力;移动支付结合声纹识别技术将声纹特征与个人支付信息集成,加强移动支付环节中的安全性。最后,他介绍了中国电信研究院在相关标准上的进展情况,并希望大家可以一起进行研究。

李蓝天——得意音通研究院清华信息国家研究中心执行副院长助理研究员.png

得意音通研究院 清华信息国家研究中心 李蓝天

从声纹到“声纹+”:技术要点与应用探讨

得意音通研究院执行副院长、清华信息国家研究中心助理研究员李蓝天分享了声纹到“声纹+”的技术要点与应用,他认为声纹识别应用的关键是实现技术与场景的打通。首先,他从声纹识别的研究背景、技术、应用场景等方面详细介绍了声纹识别技术的发展,梳理了从基础研究到应用落地的过程中面临的挑战,一是环境相关的鲁棒性,如极端噪音环境、复杂信道编码、多话者分离;二是说话人相关的鲁棒性,体现在时变声纹自学习、方言口音泛化、声纹事件检测等方面;三是应用相关的鲁棒性,包括超短时声纹鉴别、防假冒攻击、真实意图检测等。目前,清华大学语音语言中心已经在攻克声纹技术难点上开展了一些代表性的研究工作。然后,他简述了得意音通联合清华团队实现从单一声纹技术向“声纹+”技术组合的演进,如多生物特征深度融合技术、双活体防假体攻击检测技术、多模态情感分析与意图理解,并以金融为例,探讨了“声纹+”技术潜在的丰富实际应用场景。最后,他对整个分享内容做出总结,未来也有很多技术难点和场景应用需要突破,且随着声纹识别数据的开源和技术共享将会极大推动声纹识别技术的发展。

20201027792306.png

北京希尔贝壳科技有限公司 卜辉

声纹数据建设和AISHELL-VPR赛事项目分享

北京希尔贝壳科技有限公司CEO对声纹数据建设和AISHELL-VPR赛事项目进行了分享。他提到云计算、物联网、大数据等技术的迅速发展推动着整个语音产业的进步,在语音识别、语音合成、声纹识别中也有着共同落地的场景,且对声纹技术的需求愈加强烈,而声纹的数据需求和声纹技术的发展具有相互制衡的关系。接下来,他对声纹数据库建设的流程及问题要点进行了详细介绍,首先声纹数据库建设需要考虑到说话人的类别、收音设备的多样性、说话人的时间跨度及噪音环境的局限性等因素,对于声纹数据库规模建设需要从说话人的数量、采集设备、采样率及内容等方面出发,并以结合多场景产业用途建设的声纹数据库AISHELL-VPR0061与AISHELL-VPR0062为例具体介绍。最后分享了AISHELL在声纹技术应用场景上的相关赛事与竞赛数据集(AISHELL-WakeUp-1、DMASH)情况,他表示会在AISHELL官网和OpenSLR上开源一批声纹数据集,促进学术界和产业界对声纹跨信道和噪声环境下的技术难题进一步研究。

20201027290333.png

南京新一代人工智能研究院 张秋显

《声纹识别(说话人识别)基础服务指标评估规范》解读

南京新一代人工智能研究院人工智能研究员张秋显首先对AIIA《声纹识别(说话人识别)基础服务指标评估规范》的立项背景、前期工作进行了介绍,接着详细解读了评估规范的具体内容,包括声纹确认、声纹辨认的评估方法,声纹数据采集建库的要求,以及错误拒绝率、错误接受率、Top-N准确率等测试指标。目前,该版本评估规范从系统功能验证、系统基础和应用性能、服务指标要求等多维度评估系统服务综合能力,同时考虑家居、室外、车载等场景下的声纹识别性能。最后她表示下一步工作将进一步完善《声纹识别(说话人识别)基础服务指标评估规范》的评估方法和评估指标,并组织开展首轮声纹识别测试工作。

在讨论环节,嘉宾们围绕声纹识别的技术解决方案、数据库建设和应用场景等热点话题进行了探讨,大家认为声纹识别的市场需求对技术落地应用有着重要影响。目前声纹识别的落地场景主要集中在金融、安防、政务、智慧生活等领域,而实际应用中面临的抗噪声、防攻击等问题仍需突破。随后,演讲嘉宾现场回答了与会嘉宾的提问,进一步探讨了声纹识别的技术难点攻克、数据集建设细节和标准化的相关问题。


深话AI 智能语音技术应用沙龙”第一期沙龙活动--“声纹识别,听音识人”

沙龙嘉宾报告ppt获取地址或点击资料下载:

http://aiiaorg.cn/uploadfile/2020/1027/20201027050134848.zip 

会议视频回顾:

https://v.qq.com/x/page/t3164eslp7k.html 

关键词: 深话AI 智能语音技术应用 沙龙

资料下载

访问人数:4122
咨询电话
010-68094158
邮箱
jiahao@aiiaorg.cn
返回顶部