百度深度语音识别系统入选MIT2016十大突破技术

24.02.2016 09:10

本文来源: 新华报业网

　　近日，美国权威杂志《麻省理工评论》将语音接口列为2016年十大突破技术，百度硅谷人工智能实验室(SVAIL)最新的研究成果——新一代深度语音识别系统Deep Speech2位列其中。

　　百度语音识别汉语语音准确率高达94%

　　这也是本次评选入选的唯一一家来自中国科技公司的科技成果。同时入选的还有免疫工程、精确编辑植物基因、DNA商店、太阳能电池工厂、特斯拉自动驾驶、可回收火箭及空中取电、知识分享机器人、slack通信软件等产品和技术，分别来自谷歌、微软、SpaceX等多个领域的知名前沿科技公司，和加州大学伯克利分校、华盛顿大学、首尔大学等科研机构。

　　《麻省理工评论》在文中评价说：“随着百度在语音技术方面的不断进步，语音接口变得更为实用和有效，人们可以更为便利地与身边的设备进行互动。百度的深度语音识别系统(Deep Speech2)包含了一个非常大的、‘深’的神经网络，它引入了数以百万计的转录语音。有时它在识别汉语语音片段方面，要比人为识别更加准确。”

　　2014年底，百度的首席科学家吴恩达及其团队发布了第一代深度语音识别系统Deep Speech，该系统使用了端对端的深度学习技术，主要专注于提高嘈杂环境下的英语语音识别的准确率。

　　据了解，百度的语音识别技术在研究中累计采集了9600人的长度达7000小时的语音数据。其中大部分是在安静环境中采集的，但有时也会通过喇叭或耳机来播放比较嘈杂的声音，从而让被录音者根据这些情况适当调高自己说话时的音调。研究团队在采集声音数据的过程中一共添加了15种不同类型的背景噪音，包括餐厅、汽车、地铁和人群等等，这实际上已经将语音样本数据的长度放大至10万小时左右，而这些数据都需要输入到百度的语音识别系统中让其进行学习识别。

　　正是有着这样庞大的数据分析，在噪音环境下，Deep Speech系统出错率要比谷歌、微软以及苹果的语音系统低10%以上。

　　不仅如此，研究人员还加入了汉语语音查询功能，识别准确率高达94%。

　　未来和手机互动更方便

　　MIT报道中指出，语音识别和自然语言理解相结合，将为互联网市场创造切实可用的语音接口。由于汉字通过微型触摸屏进行输入的过程耗时且十分繁琐，因此，中国是发展语音接口的理想市场。

　　汉语语音识别与英文相比，包含两大难点。第一是字符数据量大。相比于英文的26个字母，系统要在每次转录中直接输出8万个中文字符中的其中一个。第二，在普通话的表述中，声调的不同往往会改变一个词的意思。

　　打个比方，普通话和其他语言有几个区别，以至于英语语音系统难以适用于这种语言。例如，如果你用不同的音调说一个词，它的意思可能完全不一样。例如，“妈、麻、马、骂、吗”，百度语音都能够一一分辨出其中的区别。百度通过收集人们常用词，筛选出有用的字符，并省去大量预处理环节，直接输入音频文件，再通过深度神经网络输出字符，从而大大提高系统运算效率。

　　深度语音识别系统的成功，很大程度上要取决于百度规模庞大的基于GPU的深度学习基础设施。通过使用批处理技术将DNNs部署在GPUs上，Deep Speech的语音识别表现出了极高的训练效率。目前，该系统支持超过26万亿次浮点运算，可在几天内完成深度语言的集中训练。

　　随着百度在语音技术方面的不断进步，语音接口变得更为实用和有效，将深度语音模型在更小的系统上运行是重要的趋势之一。百度正致力于将该语音模型缩小并植入手机等移动设备，未来，人们可更为便利地与身边的设备进行交流互动。

　　将来可穿戴式设备、智能家居、智能客服等领域将成为未来语音产品爆发点。例如，利用百度语音，百度语音通过免费、开放的策略，已经打造了周边信息查询、导航、公交线路、到站提醒、盲人路线自定义，以及丰富的旅游、餐饮、购物等生活服务语音模块，并进入了智能手机、车载、教育等多个服务领域。记者杨静

编辑: 吴宇鹏

本文来源: 新华报业网

24.02.2016 09:10