正在阅读:准确性大幅提升 语音识别或成下一个风口

准确性大幅提升 语音识别或成下一个风口

2017-10-14 09:27:14来源:腾讯创投 编辑:一不做 关键词:语音识别语音交互人机交互阅读量:27450

导读:近几年来,我们取得了巨大的技术进步。语音识别引擎的准确性已经提高了很多,现在达到了95%的准确度,略高于人类的成功识别率率。
  【中国智能制造网 市场分析】语音识别引擎的准确性已经提高了很多,现在达到了95%的准确度,略高于人类的成功识别率率。随着这项技术的改进,语音优先的基础设施变得越来越重要,导致亚马逊,苹果,谷歌,微软和百度都迅速进行布局,发布软件构建模块和平台。
 
  近几年来,我们取得了巨大的技术进步。语音识别引擎的准确性已经提高了很多,现在达到了95%的准确度,略高于人类的成功识别率率。随着这项技术的改进,语音优先的基础设施变得越来越重要,导致亚马逊,苹果,谷歌,微软和百度都迅速进行布局,发布软件构建模块和平台。语音似乎要兴起了。
 
  在本文中,作者总结了:我们目前掌握语音识别技术的现状,以及基础设施如何围绕语音发展起来,以了解过去几十年来这一领域发生了什么。
 
  语音是自然的沟通方式,但语音并不是机器交互的主要界面。自从爱迪生发明留声机之后,人们一直在和机器交谈,但是主要为了与他人进行通信,而不是与机器本身进行通信。到了20世纪80年代,语音识别技术将口语转化为文本的识别率开始足够准确。2001年,计算机语音识别达到了80%的准确度。我们可以从口头对话中提取意义,并做出回应。然而,在大多数情况下,语音技术仍然不足以提供比键盘等界面更好的体验。
 
  语音识别历史
 
  语音识别不是新鲜事,起源于上世纪五十年代,但多年来一直存在多种理解语音的方式。
 
  个语音识别系统是基于简单的模式匹配。这些早期系统的一个很好的例子是公用事业公司使用自动化系统让客户不用看仪表读数。在这种情况下,客户端对系统的回答是一个有限的选项列表中的一个字或数字,计算机只需要区分有限数量的不同声音模式。它通过将每个声音块与其存储器中的类似存储模式进行比较来实现。
 
  在1952年,贝尔实验室的一个团队设计了能够理解口头数字的机器Audrey。
 
  1970年代
 
  技术进步导致了基于模式和特征分析的语音识别系统的发展,其中每个单词被分解成小部分并且从关键特征(例如它包含的元音)中被识别。这种方法涉及声音的数字化和将数字数据转换成频谱图,将其分解成声音帧,分离单词并识别每一个关键特征。为了识别可能已经说过的内容,计算机必须将每个单词的关键特征与已知功能的列表进行比较。系统越来越好,因为它集成了来自用户的反馈。这种方法比以前的方法要得多,因为口语的基本组件声音数量相当有限。
 
  从1971年到1976年,DARPA资助了五年的语音识别研究,目标是终能够理解至少1000字的机器。该计划导致卡耐基-梅隆大学大学创造了一个能够理解1011个单词的机器。
 
  1980年代
 
  但是此前的技术仍然不是非常的,因为言语中存在的巨大的复杂性:不同的人可以用不同的方式说出同一个词,有许多相似的词(例如two和too)等等。语音识别系统开始使用统计学方法。在此期间推出的关键技术是马尔可夫模型(HMM),用于建立声学模型和随机语言模型。
 
  声学模型代表音频信号和语言中的语音单元之间的关系,以重建实际发出的内容(特征→音位)。语言模型基于后一个单词预测下一个单词(单词→句子),例如。“God save the“之后可能出现的单词是Queen(天佑女王),另外,还有一个语音字典/词典提供关于单词及其发音的数据,并且连接声学模型和语言模型(音素→单词)。终,语言模型分数与当前单词的声学分数相结合,以确定单词序列的排序。
 
  玩具娃娃Julie Doll在1989年将家庭语音识别技术带到家庭中。可以帮助儿童训练语音、说话。
 
  一直到20世纪90年代,语音识别系统的速度都太慢,无法开发有用的应用程序,但是当时出现的更快的微处理器可以进行重大改进,而个语音识别商业应用开始出现。
 
  Dragon公司在1990年推出Dragon Dictate,是个消费级语音识别产品。在1997年,你可以在一分钟内说100个字。
 
  2000年代
 
  计算机语音识别在2001年达到了80%的准确度,但没有多少进展。
 
  2010年代
 
  在过去十年中,机器学习算法和计算机性能的进步已经导致了更有效的深层神经网络(DNN)训练方法。
 
  因此,语音识别系统开始使用DNN,更具体地说,是DNN的特殊变体,即循环神经网络(RNN)。基于RNN的模型显示出比传统模型更好的精度和性能。事实上,2016年的语音识别准确度达到了90%,Google声称在2017年6月达到95%的准确率。
 
  这是非常惊人的,要知道研究人员估计人类转录精度略低于95%。然而,这些公布的结果应该仔细考虑,因为它们通常在的条件下测量,例如,没有背景噪音和英语母语的录音。在“非无菌条件下”的准确度可能快速下降到75-80%。
 
  当你需要标记数据来训练算法时,现在面临的挑战是获取现实生活中数千小时的口语音频,以提供给神经网络并提高语音识别系统的准确性。这就是Google,亚马逊,苹果和微软正在通过将Google Now,Siri和Cortana在手机免费提供服务,以便宜的价格销售Alexa智能音响的原因。一切都是为了获取训练数据!
 
  语音基础设施的开发
 
  语音基础设施开发可以分为3个必需的层次:新的应用程序出现:(1)硬件允许更多的人使用语音作为接口(2)软件构建块,使开发人员能够构建相关的语音优先的应用程序(3)生态系统,以实现有效的分配和商业化。
 
  语音分析公司Voicelabs将语音优先设备定义为始终在线的智能硬件,而其中主界面是语音,包括输入和输出。市场上语音优先的硬件是2014年底发布的智能音箱Amazon Echo。根据2017年VoiceLabs的报告,2015年发布的语音优先设备达170万台,2016 年将达到650万台,2017年将有2450万台设备发货,市场总流通设备数达到3300万台。
 
  市场上的主要智能音响是Amazon Echo(2014年11月)和Google Home(2016年11月)。然而,新玩家正在迅速进入市场:索尼推出了内置Google助手(2017年9月)的LF-S50G,苹果即将推出Homepod(2017年12月),三星也近宣布“即将发布”,Facebook可能会发布带触摸屏的智能扬声器。Google助手还将来到一些新的智能音响,其中包括Anker的Zolo Mojo,Mobvoi的TicHome Mini和松下的GA10。
 
  无疑,语音优先的硬件层正在快速发展,预计会有所增长!
 
  语音优先应用程序的软件构建门槛降低
 
  从头开始构建语音应用程序不是一件容易的事情。Nuance和其他大型公司已经向第三方开发人员提供语音识别API,但是使用这些API的成本历来相当高昂,并没有获得很好的结果。
 
  随着语音识别技术开始取得更好的成果,语音优先应用的潜力越来越大,像Google,亚马逊,IBM,微软和苹果以及Speechmatics这样的大型公司开始在较低级别提供各种低价的API产品。
 
  一些常用的包括2016年7月发布的Google Speech API,和2016年11月发布的亚马逊Lex和Amazon Polly。
 
  现在,大量开发人员可以以合理的成本构建语音优先的应用程序。
 
  语音优先生态系统的出现
 
  随着越来越多的语音优先应用和硬件带来越来越多的语音交互界面,平台不仅需要解决了分发和商业化,分析和营销自动化等第三方服务也越来越重要。
 
  (原标题:为什么说语音可能是下一个Big thing? 本文原作者Savina van der Straten,Point Nine Capital 的投资人,由腾股创投编译整理。)
 
我要评论
文明上网,理性发言。(您还可以输入200个字符)

所有评论仅代表网友意见,与本站立场无关。

版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
  • 带度检测仪电流4-20mA

    速度传感器,速度检测器,速度监控仪,皮带速度检测仪,速度开关
    品牌
    其他品牌
  • 本溪市供水设备

    变频供水设备,商业楼供水设备,二次供水系统,不锈钢、碳钢,生活供水设备
    品牌
    明基环保
  • 国产海光3350双路工业主板

    海光工业主板,工业工控机主板,国产工业主板,一体化工业计算机
    品牌
    研华/ADVANTECH
  • ANT滚珠丝杠NH2-N-4:1-K1610-100-0-1

    ANT Antriebstechnik,德国ANT,ANT丝杠,NH2-N-4:1-K1610-100-0-1,滚珠丝杠
    品牌
    其他品牌
  • 管线式高速胶体磨

    管线式高速胶体磨,高剪切胶体磨,湿法胶体磨,实验室胶体磨,德国进口胶体磨
    品牌
    其他品牌
  • 海绵试验机

    海绵压陷试验机,海绵试验机,海绵泡沫压陷硬度试验机,海绵压缩试验机,海绵压陷硬度测试仪
    品牌
    倾技
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了