|
|
|
|
移动端

科胜讯Conexant:语音交互重在提升应用体验

语音交互需要解决各种各样的难题,例如唤醒率, 语音识别率、误唤醒率等等,特别是面对各种复杂和不可预测的应用环境,如何有效解决这些问题,给用户最佳的应用体验,给语音交互提出了很高的要求。

作者:ZC来源:51CTO|2017-07-26 18:35

【新品产上线啦】51CTO播客,随时随地,碎片化学习

【51CTO.com原创稿件】或许,很多朋友都没有听说过科胜讯Conexant这家公司,笔者在收到采访邀请之前,也完全不了解它们。不过,这家专业的音视频高科技公司,已经在语音交互领域取得了不俗的成绩。凭借优秀的软硬件产品解决方案和声学积累获取了一大批的合作客户,像百度、腾讯、亚马逊这些科技巨头,在人工智能等相关产品上均采用了科胜讯公司的语音交互解决方案。

市场占有率最高的语音交互解决方案厂商

科胜讯Conexant总部位于美国加州尔湾,主要有音频和成像两个事业部组成。其中,音频事业部又有两个业务部门组成,一个是语音交互业务,一个是数字耳机业务。此次笔者采访的重点为语音交互方面的内容。

据了解,五年之前科胜讯开始进入语音交互领域,在产品研发上投入了大量的经费,积累了丰富的经验。可以说,它是第一家涉及远场语音交互的公司。根据科胜讯的介绍,科胜讯语音交互产品解决方案即包括DSP硬件,又集成了优秀的软件算法,并积累了大量的声学设计经验。

笔者获悉,科胜讯AudioSmart DSP实际上是一个系统芯片,除了DSP之外还集成了微控制器, 模拟数字转换器并嵌入了科胜讯的专有Smart Source Pickup 和 Smart Source Locator算法。科胜讯表示,之所以采用这样的设计,主要是考虑到原厂需求。原厂需要接入高性能的麦克风,所以在设计之初它就是一个功能强大的系统芯片。

科胜讯表示,基于优秀的软硬件组合和对客户唤醒词和语音识别的声学优化和设计经验,科胜讯语音交互产品成为当前市场中占有率最多的解决方案。在国内市场,百度DuerOS产品开发套件和参考设计均采用了科胜讯方案,腾讯小微也列科胜讯作为重要的合作伙伴。在国际市场,科胜讯与亚马逊建立了非常密切的合作关系,并成为亚马逊官方承认的、给第三方开发者提供语音解决方案的第一双麦克风和4麦克风指定厂商。

双麦克风仍是当前最弹性的解决方案

当市场主要推广6个麦克风或7个麦克风的语音交互解决方案的时候,科胜讯却推出了双麦克风和四麦克风两种不同的语音交互解决方案,针对不同应用场景需求, 以满足不同行业与领域客户的需求。谈到两种方案的应用场景优缺点,Conexant表示,两个麦克风是目前性价比最高的解决方案,其最大的优点是能够用在任何产品上,没有太多设计上的限制并提供出色的语音拾音。例如智能音箱、智能温度控制器、智能灯泡、智能电视、智能机顶盒和其他智能家电产品上,大都采用两个麦克风的解决方案,并且性能和效果都非常好。

相比较两个麦克风的方案,四个麦克风的解决方案最大的特点在于其提供了声源定位功能,因此性能更强。在科胜讯看来,声源定位是具有潜力的功能,在具备声源定位的未来产品上加装摄像头,即可以实现更多更丰富的应用。例如人类与机器人的交互,机器人能够通过声源定位来确定人的位置,并完成一系列的指令,如拍照、递咖啡等,这是与两个麦克风方案最大的差别。

因为拥有专有的算法和高度优化的硬件, 科胜讯的两个麦克风和4个麦克风解决方案甚至能够实现比其他更多麦克风的解决方案更好的性能. 由于两个麦克风的方案设计出的产品可以挂在墙上、天花板上,无论如何摆放,都能够完成360度拾音,应用场景非常丰富,因此两个麦克风方案仍然是当前最常见、最为弹性且最多被采用的方案。

语音交互的重点在于应用体验

语音交互需要解决各种各样的难题,例如唤醒率, 语音识别率、误唤醒率等等,特别是面对各种复杂和不可预测的应用环境,如何有效解决这些问题,给用户最佳的应用体验,给语音交互提出了很高的要求。

由于采用了自已研发的芯片、算法,并且积累了大量的声学经验,因此在音频处理方面科胜讯已经有了非常成熟的解决方案。Conexant表示,不管面对什么样的机器,手机、电视或是任何一个终端产品,重要的是能够在各个不同环境下准确识别声音,将语音传到AI引擎上面去,如百度DuerOS、腾讯云小微, 亚马逊Alexa等。在语音识别上,噪音、回声、混响是远场语音交互面对的最大挑战。对于科胜讯而言,这些困难都已经攻克,现在重点是如何帮助AI供应商和制造商开发良好用户体验的产品。

据了解,目前市场中80-90%用到的四个麦克风以上方案都是基于Beamforming降噪技术,Beamforming降噪技术的入门门槛较低,从根本上讲,性能将随着麦克风的增加而提高。科胜讯则采用了自己独有的Smart Source Pickup技术,其最大的优势在于360度拾音时,采用了独特的算法来分辨人声与噪声、回音,纯粹用演算方法来区分实现。此外,当声波束传送过来时,Beamforming技术不能准确分辨在同一位置的人声和噪声,但Smart Source Pickup技术不存在这个问题,不管声音在什么地方,人在什么地方,噪音在什么地方,都能够把人声抓出来。Smart Source Pickup技术用的是性噪比,是声音跟噪音的比例,而不是噪音跟人声的位置,区别非常大。

“语音交互的准确率高不高,误唤醒率是否降到很低,这些特性都会影响到用户对产品的使用体验。如果用户能够更自然的与产品讲话,更自然的问各种问题,并不是一定要听固定的词语,能够很正常的像人与人之间交互一样回答你的问题,这才是语音交互的最终目标。只有用户体验好,产品才会继续向着更好的方向发展。”Conexant如是说。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

【责任编辑:张诚 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

ASP快速建站全程实录

本书从一个网站制作过程入手,详细介绍基于ASP技术建设网站的全过程。全书共10章。第1章,网站制作规划与流程;第2章,IIS安装与调试;第3...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊