北京时间12月19日下午消息,百度首席科学家吴恩达今天宣布,该公司已经在语音识别领域取得重大突破,语音识别效果超过了谷歌和苹果。
当人工智能专家吴恩达今年5月出任百度首席科学家时,他对他和他的团队可能在加州桑尼韦尔新开设的实验室中开展什么项目,还显得有些谨慎。不过,他还是禁不住披露,更加先进的语音识别技术将成为智能手机时代的关键。
今天,百度披露了这位谷歌前研究员、斯坦福教授和Coursera联合创始人的初步研究成果。在康奈尔大学图书馆的arXiv.org网站上发表的一篇论文中,吴恩达和阿瓦尼·哈努恩(Awani Hannun)领导的百度研究团队的10名成员宣布,他们开发出了一种更加精准的语音识别技术——这项功能对苹果Siri和谷歌语音搜索的重要性正在与日俱增。吴恩达表示,按照语音识别系统的标准测试来看,百度的Deep Speech语音识别技术已经超过了谷歌和苹果。
具体而言,Deep Speech在嘈杂环境中的表现好于同类技术,例如汽车内或人群中。由于可以大大提升实际的使用效果,因此这项技术显然十分关键。吴恩达表示,在嘈杂的背景中进行测试的结果显示,Deep Speech的错误率比谷歌语音API、wit.ai、微软必应语音和苹果Dictation低了10%。
百度还提供了两位大学教授发表的正面评论。“百度研究院的这项最新成果有望颠覆今后的语音识别效果。”卡内基梅隆大学工程学助理研究教授伊恩·雷恩(Ian Lane)在新闻稿中说。苹果和谷歌尚未对此置评。
与其他语音识别系统一样,百度这项技术的基础也是一个名为“深度学习”的人工智能分支。这款软件试图以非常原始的方式模拟大脑新皮层的神经元活动——约有80%的大脑活动发生在那里,所以深度学习系统可以识别出数字形态的声音、图像和其他数据。“第一代深度学习语音识别技术已经达到极限。”吴恩达说。
百度团队搜集了9600人的7000小时语音内容,多数都是在安静环境下搜集的——但测试者有时也会佩戴播放嘈杂背景音的耳机,使得他们就像在嘈杂环境中一样改变语调。他们后来使用名为“叠加”的物理学定律增加了15种噪音,包括酒店、汽车和地铁中的环境噪音。这相当于把样本数据扩大到10万小时。随后,他们让系统学会在各种噪音中识别语音。
吴恩达表示,这远比目前的语音识别系统简单得多。他们使用了一系列模块来分析音素和其他语音内容。这通常需要通过名为“隐马可夫模型”的统计概率系统来手工设计模块,这就需要大量人手来进行校准。而百度的系统用深度学习算法取代了这些模型。这种算法可以在递归神经网络上进行训练,从而大大降低了系统的复杂性。
但真正令这种模式奏效的是强大的新型计算机系统,其中配备了很多Nvidia的GPU。GPU在个人电脑中用来加速图形。由于采用并行设计,因此它们在训练识别模型时的速度和成本远好于标准的电脑处理器——大约比吴恩达在斯坦福和谷歌时使用的系统快40倍。“算法很重要,但成功有很大一部分归因于可扩展性。”他说,这既包括电脑系统的可扩展性,也包括其数据处理量的可扩展性。
倘若达不到这种速度,就无法迅速分析各种数据。吴恩达表示,该系统的复杂程度超过当今的其他GPU系统。“我们已经进入语音识别2.0时代,”他说,“现在才刚刚开始。”
吴恩达认为,随着用户越来越偏向语音指令,而抛弃文字模式,因此语音识别的重要性还将与日俱增。“让他们对我们说话是关键。”他列举了中国最近的一条搜索命令:“你好,百度。我昨天中午街边吃了面条。明天还卖不卖?”吴恩达承认,现阶段回答这一问题的难度非常大,但他认为语音技术的进步是关键。
物联网的发展也是关键所在,它将把所有的“哑巴”设备引入线上。他认为,当他的孙子得知我们如今使用的电视机和微波炉都不支持语音指令时,可能会感到十分惊讶。“语音是物联网的关键技术。”他说。
吴恩达拒绝透露百度需要多久才能将这项新技术整合到搜索和其他服务中。但在被问及这是否需要花费很多年时,他却很快回应道:“肯定不需要!”所以,这项技术有望在明年投入使用。这项技术可能应用到百度Cool Box中,为用户提供语音音乐搜索服务。
吴恩达的团队成员约有30人,明年还将翻番,他们的目标是帮助百度跻身全球顶尖互联网公司之列。虽然目前主要服务于中国市场,但该公司却计划向全球扩张,包括开发世界级的语音识别、翻译和其他功能。
|