您当前的位置：IT头条网要闻正文

依图夺冠世界级声纹识别竞赛智能语音战场又破一城

2019-09-10 13:36:07 阅读：6838+ 作者：责任编辑NO。蔡彩根0465

新智元报导

修改：木青

【新智元导读】上一年年末才宣告进军智能语音商场，现在依图科技又攻下一城：9月初，夺冠全球声纹辨认比赛VoxSRC。依图正成为“鸿沟重塑者”，事务更加多元：核算机视觉、NLP、芯片、智能语音，逐步备齐各项AI才能。

AI技能战场上，依图科技又攻下一城。

刚刚，在全球声纹辨认比赛VoxSRC（VoxCeleb Speaker Recognition Challenge）上，依图以大幅抢先的效果夺得榜首名。

上一年年末，依图宣告强势进军智能语音范畴，并用“辨认精度创中文语音辨认新高点”的技能效果作为开场，现在在声纹辨认技能上亦是登顶。

这两年来，依图不断在重塑鸿沟，事务越来越多元，一向在应战新范畴，也屡摘桂冠——在AI技能上的记载既有深度也有广度，除具有绝对优势的发家身手人脸辨认外：

视觉核算：成为“AI国家队”，依图承建“视觉核算国家新一代人工智能敞开渠道”。

语音辨认：在全球最大的中文开源数据库AISHELL-2中，依图2018年时短语音听写的字错率（CER）到达3.71%，大幅改写其时的纪录；

AI芯片：算法即芯片，重磅推出具有国际级算法优势的云端AI芯片——求索(questcore)；

天然语言处理：依据机器学习的NLP技能，依图医疗与协作团队在国际尖端医学科研期刊《天然·医学》（Nature Medicine）刊发题为《运用人工智能评价和精确确诊儿科疾病》的医疗人工智能效果。

核算机视觉、智能语音、NLP、芯片，依图的下一程又在哪里？

超越清华、约翰霍普金斯团队，拿下全球声纹辨认比赛冠军

所谓声纹辨认便是说话人辨认，依据人说话的声响，判定人的身份的技能。

VoxSRC是依据英国牛津大学两年前发布的揭露声纹辨认VoxCeleb数据集安排的学术界闻名比赛。

本次参赛者来自中、美、法、日本等多个国家的高校与企业，包含中山大学、约翰霍普金斯大学、清华大学、法国国家信息与自动化研讨所、安全科技、NEC、君林科技等。

这是依图初次且独立参与这场比赛，参赛部队名称为logicworld，比赛效果大幅抢先第二名，依图、第二名和第三名部队的 EER（等错误率）别离是 0.98% 、1.42%和1.54%。EER是判别声纹辨认算法系统的归纳目标，EER越小系统功用越好。

VoxCeleb数据集来自YouTube名人采访视频，含有 7000 多个不同说话人超越 100 万段语音，时长一共超越 2000 小时。不只数据量大，VoxCeleb还充分考虑了数据的多样性，61%的发言者为男性，并且触及不同的种族、口音、工作和年纪。

此外，VoxCeleb的数据都来自无约束场景，比方红毯采访、谈判录音，因而音频中含有很多噪音，包含布景噪音、笑声、堆叠的说话声和其他杂音，录入东西也不尽相同，有的乃至是手机拍照的粗糙视频。

来历杂乱的数据集对声纹辨认技能水平的要求更高，声纹辨认的高精确率能够进步选用声纹辨认技能进行拜访操控的系统的安全性。

VoxSRC应战赛的另一大难点，一起也是其效果备受认可的一点，便是测验数据不含标示，也便是“盲测”，保证了比赛效果的公正与公正。

参赛团队的使命是分辩一对音频是来自同一个发言者仍是来自不同的发言者，能够挑选固定练习集，也能够运用无约束练习集（除测验集以外的任何数据）。

依图参与的是固定练习数据集使命，在这种情况下，参赛者只能运用赛方供给的VoxCeleb2开发集，该数据集含有来自5994个讲者的超越10万句言语。

深度学习拓宽声纹辨认鸿沟，深耕算法的依图赢在起跑线上

此前，深度学习在声纹辨认范畴并不常见，从2012年开端，深度学习逐步介入声纹辨认，进行技能的从头洗牌。

事实上，相对于图画和NLP范畴，现在声纹范畴所用到的神经网络和深度学习算法相对简略，提高空间仍然很大。

而依图正是具有国际尖端算法的人工智能公司，能够说是直接赢在了起跑线上。

还有一点值得注意，这次依图参与的是固定练习集使命，而其辨认精度比其他运用无约束练习集的团队还高。

现在，声纹辨认的后端仍被PLDA等传统处理和分类技能占有，深度学习的介入能够促进声纹辨认像人脸辨认相同广泛运用。

上一年年末强势进军，成为智能语音界一匹黑马！

依图科技在2018年末杀入智能语音范畴成为一匹“黑马”。

用以宣告进军语音战场的则是技能与工业的两层亮眼效果：

技能上，在全球最大的中文开源数据库AISHELL-2中，依图2018年12月时的短语音听写的字错率（CER）到达3.71%，比较原业界抢先者提高约20%，大幅改写彼时纪录。

工业上，依图联合微软推出依据Azure云服务的语音敞开渠道，并携手华为发布软硬件一体化的“智能语音联合解决方案”，将依图语音辨认技能供给给第三方运用开发者。

那时候依图就着重语音一向以来都是该公司的重视课题，进入语音辨认范畴是天然而然的工作，立志做国际最好的中文一般言语辨认技能。

讯飞依图BAT各家算法差异巨大，讯飞依图位列榜首阵营

好像以往一向坚持的“技能王道”理念，在谈到关于未来估计推出的语音产品及其功用时，依图首席创新官吕昊博士从前表明：“实际上，咱们以为技能和场景是比产品和功用更要害的要素。”

依图2018年推出的中文语音辨认算法，与业界原有抢先者比较，不只大幅提高了辨认精确率，并且在单个算法模型上，有极为超卓的多场景适用性体现。

在全球最大中文开源数据库AISHELL-2的三个测验子集，以及来自第三方的近场口音测验集（Accent）、近场安静谈天测验集（Chat）、语音节目测验集、电话测验集、远场测验集等测验场景中，依图均处于业界抢先水平，并且字错率简直悉数在15%以下。

其间，在AISHELL2的-2018A-eval数据会集，依图的辨认精确率高达96.29%，字错率仅为3.71%，抢先第二名约20%。

依图联合创始人兼CEO 朱珑

而构建生态方面，2018年12月，依图宣告与微软Azure云服务联合发布语音敞开渠道，将职业抢先的语音辨认技能才能敞开给第三方运用开发者。依图也携手华为联合发布“智能语音联合解决方案”，该方案依据依图语音敞开渠道，以及华为全栈全场景昇腾系列芯片和面向数据中心侧的 Atlas 300 AI加速卡。

已有的生态布局，加上从语音辨认到声纹辨认不断进行鸿沟拓宽的技能堆集，依图现已在智能语音方面握了一手好牌。

鸿沟重塑者：视觉感知、NLP、AI芯片、智能语音，依图备齐各项AI才能

不止是在语音范畴成为“黑马”，本年5月，依图在发布会上重磅推出了具有国际级算法优势的云端AI芯片——求索，打破了算法公司与芯片硬件公司的“次元壁”。

在近两年来，依图一向在“跨界”测验，不断重塑事务鸿沟。

依图求索芯片

其时AI“大牛”颜水成博士参加依图担任CTO时，曾向新智元表明：“依图是一家十分低沉的AI公司，但它无论是在产品仍是国际技能比赛上都取得了十分好的效果，这引起了我的猎奇，想要一探终究。”

尽管低沉，但AI效果单的确过硬。

截止现在，依图在人工智能技能上的记载既有深度——在视觉、听觉、语义了解等方面别离闻名全球一流水平，并且有揭露的名列前茅的效果；也有广度——掩盖视觉感知、天然语言了解、语音/声纹辨认、AI芯片、AI医疗等方面。

其间，NLP的研讨乃至现已与依图早已进军的AI医疗相结合。本年2月，国际尖端医学科研期刊《天然·医学》（Nature Medicine）在线刊发题为《运用人工智能评价和精确确诊儿科疾病》的医疗人工智能效果。

该效果由依图医疗联合广州市妇女儿童医疗中心等组织一起研制，依据机器学习的天然语言处理（NLP）技能完成不输人类医师的强壮确诊才能，并具有多场景的运用才能。

这是全球初次在尖端医学杂志刊发有关天然语言处理技能依据中文文本型电子病历（EHR）做临床智能确诊的研讨效果。不久前，依图医疗将相关技能运用于临床运用，将全国首款儿科治疗解决方案落地国家儿童医学中心，就诊时刻缩短了1.5~2 小时。

在人脸辨认方面，依图在美国国家标准与技能研讨院(NIST)举办的全球人脸辨认威望测验(FRVT)中接连三年取得榜首名。