通话不再靠吼！ ——漫谈手机话音增强技术

2013-4-26 10:18:18
类型：原创
来源：电脑报
报纸编辑：薛昱
作者：

【电脑报在线】地铁站里、公交车上，对着手机大吼大叫的人随处可见，人们努力从话筒传来的嘈杂声中分辨着对方的声音，然而源源不断涌入耳朵的噪音扰乱了这一切，在这种环境里打电话成了一份连猜带蒙的工作，背景噪音成了影响通话质量的罪魁祸首。

地铁站里、公交车上，对着手机大吼大叫的人随处可见，人们努力从话筒传来的嘈杂声中分辨着对方的声音，然而源源不断涌入耳朵的噪音扰乱了这一切，在这种环境里打电话成了一份连猜带蒙的工作，背景噪音成了影响通话质量的罪魁祸首。手机降噪技术就是在这种迫切需求之下应运而生……

双麦降噪技术，手机降噪标准版

我们都知道，语音中的浊音部分声波能量很大，往往占据一段语音的大部分能量。同时它具有明显的周期性，利用语音浊音的周期性，可进行梳状滤波。最初开发者们根据这个现象通过梳状滤波器将噪声成分过滤掉达到降噪的目的。本方法只能在信噪比较高(>20dB)时使用，这对于手机通话环境而言显然很不现实。

怎么办？后来手机厂商想到了“声波叠加互抵”的原理。声音的传播是通过介质的振动来实现，波与波之间波形如果呈反相则会在理论条件下实现抵消。这就好比平静的湖中两组不同方向的波浪相互抵消一个道理。但问题是如何得到噪声源的复制品？如果可以用两个话筒(或多个话筒)的采集系统，一个采集带噪语音，另一个(或多个)采集噪声，则这一任务比较容易解决。

手机中采用的双麦降噪技术就是根据这个原理而来的。一般来说具有双麦降噪的手机我们都可以看到在手机的顶部和底部都各有一个麦。这两个麦看起来都非常小，但是两者的作用有着明显的区别：底部的麦是用来采集带噪的语音信号，而顶部的麦是用来采集一个外部的参考噪声。由于顶部和底部在通话时距离音源的距离不用，简单点说就是距离嘴巴的距离不同，所以两个麦拾取的音量大小也是有不同的。利用这个差别，我们就可以用滤波器过滤掉噪声保留人声了。比如在打电话时，两个麦克风所拾取的背景噪声音量是基本相同的，而记录的人声会有6dB左右的音量差，这时系统会对这些实时采样的数字信号进行频谱分析，在和背景噪音信息库进行比对后让讲话者声音频谱通过，而对背景噪声的频谱进行抑制，根据信号消除原理叠加在原有通话信号上以达到消除杂音和提高通话质量的效果，降低噪音能量，比如说降低15到20个分贝，就很明显可以体验到噪音抑制的效果。

双麦降噪的关键就是一个麦克风有语音输入而另一个主要是环境噪音输入

　　需要说明的是，由于在手机通信中，不可能采用双声音采集方式，这时候仅仅只能得到一个含有噪声的语音信号，并不能得到噪声信号的相关信号。因为语音信号具有短时(在l0～30ms)平稳性，即它在时间轴上进行短时间的时移后，自身具有很大的相似性。这时有些降噪技术还会对对噪声环境下的噪声进行同样的分析，找出语音与噪声信号在时间轴时移后的异同点，然后就有可能对这种情况进行方法上改进，即采用延时方式的自适应语音增强技术。因此，可以再从从输入信号中减去这个噪声的估计值，那么最终得到的将是信噪比提高了的语音信号。

不过,传统的双麦降噪技术也有局限性。当你正在说话时，如果噪音麦克风和送话麦克风分别拾取到了你的话音，因为位置的关系所以拾取的声音是有大小区别的。如果送话麦克风拾取到的声音比较大，而噪音麦克风拾取的声音比较小，则结果出来的是你的通话声音会稍稍变小。当噪音麦克风和送话麦克风收到的语音一样大（比如在比较安静的环境下通话时），软件会认为这段语音属于噪音，通过技术处理将会对这段语音做抵消处理。这样你的正常通话声对方听起来非常小，影响了正常通话。

另一方面，双麦降噪技术不是在电路内部消除噪音，而是通过声音的空间合成实现听觉上的噪声抵消，因此，噪声在电路内部是无法消除的。这样问题就产生了，当降噪系统设计不完美时，产生的降噪音和环境噪音没有抵消而产生了叠加，噪声反而增强了。

丽音技术：摩托罗拉的骄傲

针对双麦降噪技术的问题，一些厂商就在双麦降噪技术基础上经过改进，加入专门的声音后处理硬件模块来实现更完善的降噪效果，其中最著名的就是丽音技术（Crystal Talk），一直以来是摩托罗拉引以为荣的通话质量优化技术。

不过，第一代丽音技术只是采用软件降噪方式，内置的软件能够通过麦克风来侦测环境噪音，然后通过与软件中预置大量的背景噪音信息库对比，尽可能识别对方的话语，并能自动调整听筒的音量到最佳状态，确保话质清晰。通过这种降噪技术可以降低噪音达到70%以上而且不需要额外的独立硬件支持（当然还是要用到CPU来配合的），所以成本也不高但是效果非常好。不过丽音技术并不仅仅是对噪音取样进行反向输出，里面还包括了软件处理技术和库，里面有对声音的处理模型，还包括了一些规则和不规则噪音的样板。如果制作系统ROM的人对官方包的文件不了解，很容易将声音处理模型和噪音样板作为不需要的文件去除了,导致丽音功能失效，这就是某些MOTO手机用户刷机后通话质量变差的原因。

第二代摩托罗拉丽音最大的改进之处从硬件方面进行的升级，真正做到了硬件降噪：配置双或三个麦克风，并内置的硬件模块可以存储更多噪音数据文件，辅以增强型噪声过滤技术、增强型实时信号运算处理，实现噪音单独采样、精确过滤有效改善通话质量，还能自动感应周边环境，智能调节通话音量及铃声大小。

如此强大实用的降噪技术，难道只有摩托罗拉一家拥有吗？当然不是，一贯以技术创新著称的苹果公司从iPhone 4/4S开始也采用了一套独特的话音降噪技术——EarSmart。

“EarSmart”：旗舰机的选择

EarSmart技术并不是苹果自家的降噪技术，它是Audience公司独家的语音处理技术。EarSmart技术也是利用双麦降噪原理，只不过它加入了特殊的音效处理芯片——I2C接口的DSP芯片，来提升噪音过滤处理效果。

EarSmart更像是通过强大DSP芯片实现的“仿生耳”来降噪

这款DSP芯片最大的特色是能仿效耳朵的辨识能力，通过双麦克风判定声音的方向以及到达时间差进行降噪演算，在嘈杂的环境中，将不同的音源区分开来，将环境噪音过滤，将需传递的通话声保留，从而提供清晰的通话质量，提升语音识别的正确率。

EarSmart技术最重要的是手机终端里面必须要有专门的芯片去做计算处理。而且EarSmart技术收集声音信号的能力覆盖四面八方，如35度、45度，甚至90度，这使得不须采用任何指向性麦克风，也不需指定特定的麦克风种类，可以有效控制成本,并且可以让手机上的麦克风兼具收发语音的功能，使双麦降噪中各自负责接收与发话能力的麦克风同时发挥两种能力，达到独特的信号强化功效——这一点对于免提的状态下的通话更有意义。这也让EarSmart技术具有更广泛的应用环境，如平板电脑。

由于平板的视频电话模式不同传统手机通话将装置放在耳边，多半是手持着平板，面对平板通话，EarSmart技术可以通过双麦克风判定声音的方向以及通过到达时间进行降噪演算，在嘈杂的环境中，依旧可以过滤大半的环境噪音，提供清晰的通话质量。

正因为“EarSmart”具有优秀的降噪技术，因此被应用于不少高端智能手机上。其中就包括苹果iPhone4/4S、三星的 Galaxy S2/S3/Note，华为 Ascend D1/D Quad、小米 Mi2，魅族MX 等手机。

　　总的来说，手机话音增强的一个主要目标，就是从带噪语音信号中提取尽可能纯净的原始语音，然而由于干扰通常是随机的，目前从带噪语音中提取完全纯净的语音几乎是不可能的。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪声，使听者乐于接受，没有疲劳感，这是一种主观测量；二是提高语音的可懂度，方便听者理解，这是一个客观测量。但这两个目的往往不能兼得，所以不同技术在实际应用中总是视具体情况而有所侧重。

本文出自2013-04-29出版的《电脑报》2013年第16期 D.智能手机
(网站编辑：pcw2013)

我来说两句(0人参与讨论)

发表给力评论！看新闻，说两句。

匿名

ctrl+enter快捷提交

读者活动

48小时点击排行

编辑推荐

手机拍摄玩法多，用APP为作品加点料

论坛热帖