近年来,随着互联网、5G和Wi-Fi等技术的快速发展,智能家居行业已经从最初的“单点智能”走向“情景智能”。此外,随着智能语音方案的日益成熟,语音交互的市场需求不断打开,智能车载、智能穿戴、智能照明等领域潜力也在快速释放。
作为国内离线语音AI芯片领域的“先行者”,自成立至今的近7年间,启英泰伦每一代产品的推出都将智能语音推向了新的高度。如今,启英泰伦又推出了第三代智能语音AI芯片,全面覆盖高性能、低成本端侧语音和端云融合语音等应用。为了进一步了解这款芯片,集微网采访到启英泰伦创始人兼CEO何云鹏,双方围绕公司第三代智能语音芯片、智能语音行业及公司发展等内容进行了一次深入交流。
1、当前,智能语音在场景应用中的挑战主要有哪些?
如果与图像识别相比,语音识别在算力上的要求显然低很多。然而,在实际应用中,算力只是一方面,智能语音在算法上的要求是非常高的。因为在实际场景中,不仅要听得清楚,还需听得明白。
就听得清楚而言,智能语音面临的挑战主要源于场景的复杂性。在其应用场景中,往往充斥着各种噪声,包括稳态的噪声和非稳态的噪声。比如,在家居场景,厨房厨电的烟气噪声常常高达七八十分贝,此外,还有电视、破壁机、扫地机器人的声音,多人议论的声音等。在会场环境中,周围的声音往往非常嘈杂,还会有高音喇叭的声音等。从上述例子可以感受到,噪声场景是极其复杂的。
听得清楚主要与环境因素关联,而听得明白又是另一重挑战。中国地域辽阔,存在许多不同语系,各地方言更是数不胜数。再加上每个人的声音、口音,以及表达方式差异甚大,想要听明白这么复杂的语音内容,其中的困难可想而知。从发展时间上看,智能语音的应用不过十多年,而人类进化则至少历经几十万年,可见这是一个极具挑战的事业。
然而,在实际应用中,用户对智能语音的要求极高,对于一个能听会说的设备,常以机器人,甚至超人的标准对待。在人耳也不易听清的嘈杂环境中,会希望语音设备能听清;人耳很难同时听懂两个以上人说话,但要求语音设备能听懂。此外,很少有人能听懂各地的方言口音,但各地方的人会要求设备听得懂该地方言,甚至土话。
2、第三代智能语音芯片在哪些方面进行了迭代升级?
第三代智能语音芯片是启英泰伦历经三年潜心研发后推出的。相较上一代产品,这款芯片创下“算力更高、高度集成和算法新高”的“三高”记录,全面覆盖高性能、低成本端侧语音和端云融合语音等应用。
启英泰伦智能语音芯片从第一代发展至第三代,可以看到清晰的传承与进化脉络。第一代BNPU实现的是端侧语音识别,是行业首款集成神经网络处理器的语音AI芯片,也是离线语音产业应用兴起的标志。第二代系列芯片CI1102/CI1103及CI1122芯片则集成了第二代BNPU,不仅实现了离线语音识别功能,还能实现离线声纹识别和命令词自学习等个性化的功能。
与上一代产品相比,第三代BNPU作了大量技术迭代。除继承第二代的语音识别、声纹识别外,还支持了基于深度学习的降噪技术(深度降噪),人声分离技术(深度分离),命令词自学习2.0版本技术,以及行业首次突破性的离线NLP技术。
从芯片算力方面看,第三代13系列芯片内置BNPU 3.0和支持DSP指令扩展的RISC CPU两大内核,主频高达240MHz,并具有640KB系统SRAM。
特别值得关注的是第三代智能语音芯片对端侧NLP的支持。此前,业界普遍认为只有云端才能实现NLP,而启英泰伦最新的技术已经可以采用端侧智能语音芯片实现NLP,将语音处理放在端侧,既保障了用户的体验感,又能降低云端搭建和运营成本,降低网络带宽消耗,也能提升用户使用的安全性。
3、与云端语音处理相比,离线语音的优势体现在哪里?
在智能语音识别发展的早期阶段,由于对算力的要求较高,基本都是通过云端进行智能语音识别处理。客观来看,云端处理有一些天然的优势,比如自带内容及服务、模型可快速迭代、数据收集和训练便捷等等。
不过,随着智能语音技术不断发展和应用的不断拓展,云端处理在响应可靠性、隐私保护、成本等方面的弊端逐步暴露出来。
由于云端语音传输、处理的过程链条较长,网络传输、服务器的响应、以及终端和云端的协议交互等都需要时间,一旦遇到网络延时、服务器拥塞等情况就会出现响应迟钝、甚至无响应等问题。
云端语音需要上传终端采集到的用户环境中的声音信号,信号可能包括用户的声纹,以及个人及家庭成员的私密信息,可能会被恶意截取、泄露,个人或家庭隐私被泄露的风险很高。
从经济的角度看,云端语音还存在成本较高,资源浪费严重问题。云端语音需要后台不间断的运行大量服务器来做语音处理,服务器的购置、后续的硬件更换和软件运维、人力费用和电费场地费等都非常昂贵,这个对于企业来讲是很大的一笔费用。
虽然,在智能语音识别发展早期,主流方式是通过云端进行智能语音识别处理。然而,启英泰伦却另辟蹊径,率先选择了离线语音AI芯片的方向。这一选择的出发点是基于对用户真实需求的深入思考。首先,离线语音是不依赖网络和云中心的真智能,既能给用户带来即时的灵敏响应,也能更好地保护用户的隐私。此外,出于对用户权益的考量,离线语音能确保用户拥有完整的、自主的智能设备使用权和控制权。最后,除用户体验外,还需考虑更广泛的用户的成本承受能力,不仅是让用户体验更好,也能用得起。
4、启英泰伦生态建设上有怎样的目标和计划?
启英泰伦很早便定下了“3 Make”的目标,即让设备更智能、让应用真方便、让AI更便宜。为了降低智能语音的应用门槛,启英泰伦于2017年便开始建设语音AI开发平台,2018年底正式推出,2019年则完全向全行业开放。
目前,启英泰伦的语音AI开发平台已迭代至3.0版本。即便从未做过语音应用开发的人,只需通过平台的引导,也能轻松进行语音开发,可以无代码做语音开发,低代码做应用开发。除平台全面对外开放外,启英泰伦还会通过代理商、方案商的体系推动其生态的发展,在每个行业、领域发展相应的方案商,共同构建智能语音生态。
此外,启英泰伦也与学界达成良好的合作关系,推动在中学、大学的AI教育,老师和学生都可以使用启英泰伦的芯片平台开发各种应用。目前,使用启英泰伦的语音AI开发平台学习和开发的学员已超过10万名。
5、启英泰伦的愿景是什么?
启英泰伦的终极目标是打造跨设备、跨时空,用户专属、终身守护的守护精灵。
总体而言,这一目标可以划分为三个阶段,第一步是让人机交互更自然,更具普适性;然后通过更多的数据,让机器更理解人、更主动地为人类服务;最终目标是打造专属的守护精灵,它将是用户全方位的生活管家、健康安全卫士、百科知识导师和给与心灵陪伴的知己朋友。
为了更快地实现自身目标,启英泰伦正加强生态建设,提升应用开发平台,和合作伙伴们一切推动生态建设,努力降低AI语音应用的门槛。