- 2017/3/14 11:01:12
- 类型:原创
- 来源:电脑报
- 报纸编辑:电脑报
- 作者:
深度学习带来曙光
学术界寻求理论突破,产业界希望打破垄断,这样期待的氛围中,深刻影响语音识别的重要角色在2006年后出现了。没错,我说的是深度学习,或者说深度神经网络。
2006 年的一天,西雅图微软研究院的研究员邓力看到欣顿的一篇关于深度学习的论文《关于深度置信网络的一种快速学习算法》(A fast learning algorithm for deep belief nets),眼前一亮,感到自己绞尽脑汁没有突破的问题,欣顿轻而易举就解决了。 2009 年,邓力邀请欣顿到西雅图微软研究院一起讨论,从此微软语音识别研究转入了深度学习方向。
谷歌稍晚了一点,但追赶得很快。出门问问公司CTO雷欣回忆,当年他在谷歌语音识别组担任研究科学家时,2011年夏天,欣顿的博士生纳瓦迪普•杰特列( (Navdeep Jaitly)来语音识别组实习,建议用深度神经网络来替代高斯混合模型做声学模型。短短的实习时间里,纳瓦迪普在实验中获得了显著超出谷歌原系统的识别结果。之后,谷歌工程师们很快将实验工程化产品化,2012年初发布在谷歌Voice Search主产品中。这是业界首次将深度学习用于大词汇量语音识别产品中。2012年下半年,他将深度神经网络发布至Android JellyBean版本中,这也是业界首次将深度学习用于嵌入式语音识别产品。
微软语音识别研究取得惊人突破。2016年10月18日,由微软首席语音科学家黄学东博士带领的语音团队在权威的产业标准 Switchboard 语音识别基准测试中,实现了对话语音识别词错率5.9%,首次达到与专业速记员持平。这被认为是AI领域历史性的突破。
百度也不示弱,首席科学家吴恩达立即发推特祝贺微软的语音识别突破,同时话中有话地介绍一年前百度在中文语音识别上就达到的成绩。百度的Deep Speech2的短语识别的词错率已经降到了3.7%,也达到或超过人类水平。
巨头们高度重视用深度学习解决语音识别问题,带来了产业格局的变化。美国出现了几十家应用深度学习的语音识别技术公司。同时,专利和算法作用越来越小,场景应用能力和客户数据资源在竞争中变得越来越重要。
在语音识别应用场景创新方面,亚马逊的Alexa语音交互平台非常成功。用Echo交互式蓝牙音箱,语音通过内置接口,进入 Alexa平台进行语音交互。2014年Echo推出后,两年多时间内应用场景爆炸性增长,从同步语音数据、播放音乐发展到几十种家电的智能家居设备控制,再发展到语音购物、语音支付、语音叫外卖、语音打车等多场景应用,亚马逊的Alexa人机语音交互玩得出神入化。以至于有人惊呼:“这就像是试图成为语音方面的谷歌或者语音方面的Windows操作系统,亚马逊是要拿走整个市场。”
亚马逊Alexa语音交互平台
场景应用,成为语音识别的新方向,也成为创业者的新机会。张晴晴博士这样分析语音识别的创业环境:“语音识别的门槛正快速降低。在大数据和云计算的推动下,深度神经网络开始体现出强大的数据记忆能力,由此大大降低了语音建模难度。深度学习在数学原理上并不复杂并拥有大量开源工具,让初学者能够很快上手。语音行业从核心算法的垄断,转向对数据的垄断和对应用场景的理解和把握。语音识别的战场从科研界转向企业界,这给新来者提供难得的弯道超车机会。语音识别行业创业的春天已经到来。”
而中文语音处理行业也迎来新机遇。一个很有趣的现象是,在语音领域华人专家众多。是因为语音识别等领域研究工作十分艰苦,华人勤奋好学。此外,中文语音处理市场非常广阔。
依托人才优势和中文市场,伴随中文语音技术的迅猛发展,云知声、出门问问等新企业应运而生,一大批中国AI企业崛起。更可喜的是,除了知名中国互联网科技公司在语音方面的进取外,以语音为特色的AI公司如科大讯飞等,也已经具备挑战国际巨头的能力。
在普及层面上,采用云识别的中文语音输入系统,已经渐渐成为手机和各种应用设备人机交互界面标配,语音技术不但已经解放了双手,还正在更广泛进入和改变我们的生活。
重建巴别塔的第一块基石已经深深埋下。机器已经在聆听,它听得越来越清楚。
更多关于 AI传奇 的文章 |
报纸客服电话:4006677866 报纸客服信箱:pcw-advice@vip.sina.com 友情链接与合作:987349267(QQ) 广告与活动:675009(QQ) 网站联系信箱:cpcw@cpcw*.c*m
Copyright © 2006-2011 电脑报官方网站 版权所有 渝ICP备10009040号