在拥堵的语音 AI 芯片赛道,他们具有自研的全栈式技能才能,先将方针瞄准智能家居商场,经过语音芯片翻开人机交互的进口,再铺向更多的运用场景。
撰文 | 力琴
正在播映电视剧的电视机旁,放着一个电路板,即内含探境科技的语音芯片——Voitist 音旋风 611、外围电路、麦克风,这是一个用于智能家居语音操控的原型体系。
当人对着用于智能家居语音操控的原型体系说话时,该「体系」就会进行回应,它可以精确的经过人的指令做出反响,比方当你说出「最大风量」时,体系就会复述一句,将抽油烟机调整为最大风量。
在夹杂多声源的语音环境下,离线不联网的语音操控办理体系仍能接听人宣布的指令,并作出反响。
探境科技副总裁李同治告知机器之心,家电厂商可以直接运用这个电路板用语音交互来操控家电,比方替代抽油烟机本来需求按按键的操作,或者是将板卡与家电厂商的操控模块,经过串口协议直接相连,不做其它改动,即可晋级为一套语音辨认操控的智能家电。
由 Marvell 我国芯片研制部门前高管鲁勇创建的 AI 芯片公司探境科技,想以此切入宽广的智能家居商场,经过语音芯片翻开人机交互的进口。现在为止,搭载语音芯片的探境语音辨认计划已完结百万级产品出货。本年营收现已破千万元。
1 完结百万级出货量
2017 年,担任 Marvell 我国芯片研制部门高管鲁勇看到了 AI 芯片热潮背面,存在着巨大的商场需求和落地场景,便创建了探境科技。
探境科技创始人鲁勇
两年时刻,探境科技敏捷完结芯片量产出货,且快速完结商业化落地。
2018 年,探境科技开端完结 SFA 架构雏形,完结语音芯片 Voitist 音旋风 611 的流片;2019 年第一季度 611 一次性流片成功,开端协作首个 alpha 客户,;2019 年中完结量产供货。
2 年时刻,鲁勇泄漏,搭载语音芯片的探境语音辨认计划已完结百万级产品出货。未来探境还会将语音产品做二次晋级,推出更多在线离线一体化计划。
到现在,探境现已协作约 30 家组织,协作厂商包含美的、海尔等智能家居制造厂商。
探境科技在全球有 6 个研制中心,分别是北京、上海、深圳、合肥、杭州、美国硅谷。公司总职工挨近 200 人,其间 150 人是研制人员,其主干研制人员均匀作业经历约 15 年,其间有 50 人具有硕士、博士学历。
2 三大「自研降噪」法宝
AI 降噪技能+HONN 神经网络+端到端双麦
在智能家居细分类别中,智能灯具、抽油烟机、空气净化器、垃圾桶、窗布等家居设备,均可以终究靠搭载语音芯片的智能家居语音操控办理体系完结。
据 Strategy Analytics 发布的研究报告显现,具有语音操控的智能家居设备 (不包含智能音箱) 的销量将从 2018 年的 15.4 万台跃升至 2025 年的 3230 万台。
在炽热的智能家居语音商场,语音芯片在语音交互中扮演着一个要害的人物。因其在语音辨认、智能交互等方面的优势,可认为智能家居供给新的操控进口。
可是现在语音操控技能层面仍面对许多应战。高噪声、远场辨认环境形成低信噪比状况。信噪比,是衡量需求辨认的方针声源与其它搅扰声源强度比值的对数。一般将信噪比低于 15dB 的称为噪声环境。信噪比越低,辨认难度越大。
非稳态噪声,即搅扰人们歇息 、学习和作业的声响,也会对降噪算法产生影响。别的播映电视剧、音乐形成的多声源也会影响语音辨认。
在语音辨认的研制过程中,一个完好的辨认链路可以简化为麦克风输入、降噪处理、语音辨认、辨认成果输入四个环节。
语音辨认研制流程
为了顺利完结语音辨认,探境科技提出,首先在降噪处理方面下功夫,经过自研的 AI 降噪算法,对非稳态的突发性噪声进行过滤。其次,经过高核算强度神经网络(HONN)进行语音辨认。在这一环节,神经网络模型所需的算力决议了模型的描绘才能,一起也决议了模型处理才能和辨认率的上限。
在传统的语音辨认算法里,一般选用 DNN 的办法。DNN 即全衔接神经网络,最朴素的神经网络,网络参数最多,核算量大。高强度神经网络的参数量不大,仅为 DNN 的五分之一,用更小的参数量和存储,即可完结更好的作用。
相比较于全衔接操作,卷积操作可以供给更高的核算强度,且卷积运算与人类大脑担任感知模块的处理办法相似,可以提取满意大脑认知的实质特征。
探境将其核算机视觉中的一些经历迁移到语音辨认中,在语音辨认算法上加入了更多的卷积操作,从头规划了一个高核算强度的神经网络,即 HONN。
成果显现,HONN 在远场和高噪声等环境下的辨认率显着优于 DNN。
根据 AI 降噪技能与 HONN 神经网络还不足以处理语音辨认问题。为了提高超强噪音场景下的语音辨认率,探境科技开发了根据 FCSP 的端到端 AI 双麦算法。FCSP(Frequency Complex Subspace Projection)是探境自研的频域复数子空间投影算法的简称。
经过这个算法直接输入阵列信号,输出的是终究的辨认成果,中心部分悉数交给根据深度学习的 AI 算法来处理,不再运用传统的数字信号处理办法。
李同治标明,在模型练习期间,采纳「注意力增强」的学习办法,可以活络地检测到唤醒词和指令词。「相似于在一个喧闹的环境里边,假如有人喊自己的姓名,一会儿就能反响过来。」他比方道。
探境科技的逻辑是,经过 AI 语音算法+HONN 神经网络模型来提高辨认率,再经过 FCSP「端到端」的双麦处理算法简化辨认流程,下降终究语音辨认的错误率。
将这三个「法宝」集结一体,意图是霸占语音辨认难题。结合这三大条件,探境科技发布离在线一体的语音辨认处理计划,即 Voitist 音旋风 612。
Voitist 音旋风 612 的特点是下降传统语音设备对多麦的信号处理,相应节约硬件本钱;在高噪声环境下辨认率高;有用算力更高。
3 自研全栈式「硬底盘」
与其他公司不同,探境科技更着重自研,在全栈式技能上,供给芯片、软件、算法、体系一站式全体计划。
存储优先的芯片架构 SFA(Storage First Architecture) 则成为探境科技建立「全栈」式服务的根底。先用 SFA 处理算力的存储问题,再凭借 AI 降噪算法,经过全栈式的处理计划「杀进」商场。
鲁勇标明,SFA 是针对 AI 芯片存储墙问题而设置的芯片架构。所谓存储墙问题指的是,与数据和存储相关的带宽瓶颈、功耗瓶颈问题。同行业其他 AI 芯片规划公司也意识到,AI 芯片的实质不是要处理核算问题,而是要处理数据问题。
「一切运转的深度学习算法和 AI 芯片都面对一个问题,并不是要做卷积运算的乘法或加法,这并不是最难处理的问题,难点是在于存储带宽要求很大,存储功耗很高。」他指出,很多数据的重复运用,以及数据在存储器里的方位、相对联系、读取的功能,会影响到算法运转的功能。
现在常见的芯片类型 CPU、GPU、FPGA、ASIC 都可以运转深度学习算法,都可统称为 AI 芯片。CPU、GPU 都归于冯·诺依曼结构,指令译码履行、同享内存。用冯·诺依曼结构的处理器处理深度学习算法时,供给算力虽简略,但当运算部件到达必定的才能,存储器则无法跟上运算部件耗费的数据。
因而,SFA 架构以存储来驱动核算,推翻冯·诺依曼架构,规划不同于之前类 CPU 的核算架构。
实测数据标明,在同等条件下,SFA 可带来超高的能效比,数据拜访可下降 10~100 倍,存储子体系功耗下降 10 倍;28nm 工艺测验下,体系能效超越 4T OPS/W,核算资源利用率超越 80%,DDR 带宽占用率下降 5 倍。
根据 SFA 架构,探境科技拓荒语音和图画两条产品线。
在探境科技的语音芯片产品矩阵中,除了支撑 AI 双麦的 Voitist 音旋风 612 之外,还包含在离线一体的 Voitist 音旋风 621、以及语音芯片的旗舰产品——可支撑本地 NLP 的音旋风 7 系列。
探境科技语音产品矩阵
2019 年 8 月,探境自主研制的通用型语音芯片「音旋风」611,可以支撑 200 条的指令词,可以做到 99% 的唤醒率和极低的误唤醒率,已切入智能家居范畴,触及智能空调、空气净化器等多个品类。
Voitist 音旋风 611
别的,探境科技搭载的 SFA 架构的图画芯片 Imagist851 已流片成功,图画芯片的中心目标 IPS/W 高达 800,瞄准工业视觉、新零售、安防、辅佐驾驭等商场。
鲁勇称,SFA 可完结真实的通用型 AI 芯片架构,可支撑恣意神经网络。
「不只适配于终端,也适配于云端、推理、练习,可组成不一样的产品形状。」据鲁勇泄漏,探境的云端 AI 芯片也已提上日程,将于 2020 年推出。
他向机器之心标明,现阶段会以智能家居为主基点,然后再逐步加码至其他场景。
谈及未来的发展规划,他标明,探境科技定坐落一家语音、图画相结合的 AI 芯片公司,根据语音算法、图画算法,既有面向家具、玩具、智能穿戴等场景的语音系列处理计划,也有面向安防、新零售、辅佐驾驭等图画处理计划。
现在探境科技挑选做终端 AI 芯片,相对云端芯片投入本钱较低,离手机、智能音箱这类产品的规划和出产较近。在拥堵的语音 AI 芯片赛道,根据自研的全栈式技能才能,先处理存储再处理算力,探境走出一条不同寻常的路。