科大讯飞:听见中国智能语音技术最强音

来源 :大学生 | 被引量 : 0次 | 上传用户:tropicalpalmetto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  新生报到季,某校刚刚入学的新同学没有像以往一样领到厚厚的一本新生指南,取而代之的是一个叫“新生助手”的小盒子或者手机“小马甲”。在这个陌生的环境下,这个“新生助手”就成为了同学们融入校园生活最可靠的伙伴了。
  语音技术进校园
  “哪里可以买到便宜的洗漱用品?”新生小贾刚刚把行李放下,就要买必备的生活用品了。
  “小助手”回答道:“学校周边步行范围内有两个超市,一个物美超市在南门外面的学府街2号,一个是学生超市在学校的二食堂边上。您是要买牙刷、牙膏和毛巾么?请选择一下吧。”这时,在智能设备的屏幕上,展现了这两个超市的地图,同时把小贾可能要买的东西在这两个超市的价格都罗列在下面。
  小贾很高兴地说道:“好啊,就这几个东西吧,我想从学校里的学生超市买这几样。给我送到宿舍来吧。”
  “好的,”接到了小贾的指示,“小助手”直接下了单,“东西会在30分钟之后送达。另外,今天是新学期第一天,你要不要去校园里看看呢?”
  小贾问道:“去哪里看好呢?新学期学校应该有什么活动吧?”
  “小助手”依次列出了今天学校所有的活动和地点:“10点到17点,北门小树林有各个社团的招新活动;10点到11点,我的朋友S博士会介绍学校的智能授课评估系统……”
  “这个智能授课要去听,据说以后我们的课堂综合评分,都是由这个智能语音系统来完成的。”同宿舍的小于在旁边忍不住插嘴。
  “好啊!那就帮我们订两个座位吧,我们10点去参加S博士的演讲。”小贾说。
  几秒钟后,“小助手”在其上方投射出一个报告厅的全息座位图,其中有两个座位高亮显示:“定好了!你们的座位在在H21和H23。报告厅离宿舍不远,我已经把路线图推送到你们的手机上了。”
  小贾和小于顺着地图的指引,刚刚来到报告厅门口,“小助手”先跳出来和“S博士”打招呼了:“S博士你好,这是新生小贾和小于,今天来学习智能授课评估系统。”
  这时候,教室门口突然跳出来一个戴博士帽的大胖子博士全息图,很热情地和大家打招呼:“欢迎欢迎,今天还有另一个校区的同学,通过全息在线和我们互动。”
  大家坐定之后,一个更大号的“博士帽”被投射到最前面,“S博士”开始详细地讲解如何与该系统进行良好的互动,从而争取到更好的课堂分数。
  其中有一点最让小贾印象深刻:回答课堂问题时,你们只要以你最喜欢的方式说出你的想法就好了,我们的系统会全面分析你的答案,并分析你的语气和语速,从而得到最好的分数。
  会议的最后,小贾和小于很好奇地问“小助手”:“S博士到底在哪个校区工作啊?”
  “小助手”嘿嘿一笑说:“S博士和我一样啊,是你们的智能语音助手哦。”
  看过上面的故事,有的同学也许会问:这是哪个科幻小说中的场景?如果是在几年前,这样的场景也许还是人们对于遥远未来智能社会的幻想。不过,最近智能语音领域的迅猛发展,让很多这样的“科幻”场景即将成为现实。
  那么,智能语音从哪里来到哪里去?未来这方面的技术会如何改变我们的社会和生活?带着这些问题,我们采访了这个领域在中国成长起来的大咖:科大讯飞。
  最早接近“人类智能”的领域
  近年来,“人工智能”这四个字在各个方向“轰炸”着人们的认知。事实上,这四个字意味着语音、图像、视频、文本、日志分析等多个领域。在这些个领域里面,很多离真正的“人类智能”还有一定距离。但是,智能语音领域却有着不一样的进展。
  2015年,科大讯飞最新语音转写产品“讯飞听见”将中文普通话识别和转写的实用准确率提高到了95%以上,远超过人类专业速记员的速度和准确度。这个不同寻常的发布与那些最新研究成果和技术实验有很大的不同,这标志着中文智能语音的技术已经可以真真实实地达到人类的水平。
  “科大讯飞虽然成立18年了,但是在语音识别领域其实还是个新兵,”讯飞负责人这样告诉记者:“最早的语音识别技术可以追溯到上世纪50年代,贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统;1960年英国Denes等人研究成功第一个计算机语音识别系统。大规模的语音识别研究始于上世纪70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。”
  上世纪90年代以后,大词汇量连续语音识别得到优化,在语音识别技术的应用及产品化方面出现了很大的进展。1997年,IBM Viavoice首个语音听写产品问世。
  自2009年以来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展。2010年,谷歌发布VoiceAction支持语音操作与搜索。2011年初,微软的深度神经网络(DNN)模型在语音搜索任务上获得成功。也就在同年,苹果手机助理Siri首次亮相,人机交互掀开了新的篇章。
  科大讯飞成立于1999年,相比这些巨头来说,是个不折不扣的“新兵”,刚开始难免是要坐冷板凳的。但是,在多年的積累之后,科大讯飞在智能语音领域中的贡献让人刮目相看。有些人认为中国的企业可能在中文智能语音方面积累更多一些,事实上,科大讯飞在历次的国内外语音合成评测中,各项关键指标均名列第一。2008年至今,科大讯飞连续在国际说话人、语种识别评测大赛中名列前茅。2014年,科大讯飞首次参加国际口语机器翻译评测比赛(International Workshop on Spoken Language Translation)即在中英和英中互译方向中以显著优势勇获第一。2016年,国际语音识别大赛(CHiME)科大讯飞取得全部指标第一;在认知智能领域,相继获得国际认知智能测试(Winograd Schema Challenge)全球第一、国际知识图谱构建大赛(NIST TAC Knowledge Base Population Entity Discovery and Linking Track)核心任务全球第一。   智能語音技术从简单的比赛和实验室成果,到真正的实用化,甚至超过人类的智能水平,要做的工作比我们想象得要复杂得多。如果我们打开“讯飞听见”的技术链,发现其集成了包括语音转写识别技术、篇章级处理方案、自然语言处理技术、阵列解混响技术、口语化风格处理技术、声纹识别等多方面的技术,为了应对每个人之间的个体化的差异,方言语音识别、高抗噪语音识别、个性化识别等多方面的功能也是必不可少的。去年12月,“ 讯飞听见”的升级版本在原实时转写汉字的基础上,还可同步翻译为英、日、韩、维等多种语言。
  更高阶:认知智能
  人工智能的“旅程”中,在很长一段时间,一直处于“能存会算”的计算智能时代。在这一时期,机器还是计算的机器,人类和机器交互的方式还很有限很低效,在有限的交流中,机器能按照人来安排的指令,完成特定的功能已经算是合格了。
  智能语音领域的发展,率先将机器的“听、说、理解”能力拉升到了“感知智能”的阶段。以谷歌、微软、讯飞为代表的一批优秀的企业和机构将语音的识别、认知、合成、翻译等能力植入了机器内。同时,在教育、车载、家居、通信、硬件和城市等多个领域,产生了丰富的应用。
  “现在我们要进入认知智能阶段了。”科大讯飞强调说。从最新的讯飞产品线来看,在教育评测、知识服务、智能客服、机器翻译等领域,机器已经开始具备了“能理解会思考”的能力了。“人工智能在智能语音这个领域里已经超过人类了。最近我们在做一些教育评测领域的实践。如今,机器主观题阅卷技术对语文、英文等学科的评分已达到或超过人工评分水平。”
  当智能语音系统具备足够多的实践、“学习”过足够多的数据,“练习”过足够多的对话,也许它真的可以为人类“打开另一扇窗口”。
  那到底未来是什么呢?也许智能语音技术与其他人工智能技术配合起来,可以让人们专注在自己的兴趣上,而不用担心是谁来完成基础服务;可以让小孩子可以自如地获取知识,而不用关心谁在扮演老师的角色;可以让科学家将精力集中在最核心的研究上,而不用操心是谁来进行配合性的工作;可以让上班族们在早高峰可以美美地睡一觉,而不用费心交通状况和换乘方案……
  毫无疑问,人工智能未来肯定会在我们身边扮演一个主要角色,智能语音技术显然也会成为这里面的重要核心之一。不过,这个领域仍需杰出的人才进行数十年如一日的坚守和创新,大家准备好了么?
其他文献
联合化疗可以克服单一疗法存在的药效低、产生耐药性等问题,在癌症治疗领域具有至关重要的作用,受到了国内外科学家的广泛关注。然而,目前临床上使用的“鸡尾酒”给药方式会使得具有不同药代动力学的化疗药物在体内分布不均,导致药物无法同时作用于肿瘤组织,影响药效。虽然现在已研发出了多种形式的联合药物输送系统来解决这一问题,但是这些输送系统的载药量通常不高,且制备过程繁琐,成本很高,很难实现大规模生产。本论文在
有机颜料表面无机包覆处理,能够将有机颜料色彩鲜艳、品种繁多、色谱齐全、色调明亮、透明度高、光敏性优良、毒性低等诸多优点与无机颜料高的抗紫外性能、耐高温性能和耐溶剂性能等性能进行结合,获得具有两者优点的新型有机-无机复合颜料。论文利用Al_2(SO_4)_3水解过程,将Al_2(SO_4)_3水解产生的水合氧化铝包覆于C.I.颜料红170表面,通过控制工艺条件获得具有不同包覆层形貌结构的包膜颜料,并
《奇葩说》是一款网络综艺节目,本文试图以其为例,通过《奇葩说》与其他综艺的文本对比,从大众文化角度解析综艺节目的生命脉络。综艺节目展现出更多的时代特点。传统媒体、
江泽民同志的“七一”讲话运用了一系列的逻辑方法、逻辑推理、逻辑论证 ,为人们在思维和表达中正确运用逻辑树立了一个光辉典范。指出和分析它们 ,不仅可以体会到一篇有说服
近二十年来,随着现代微电子技术的飞速发展,各种光电子器件的微型化对材料提出了纳米化要求。一维纳米材料的合成和性能研究引起了科学界的极大兴趣和广泛重视,人们利用各种方法
多甲氧基黄酮类化合物是广泛存在于柑橘属植物中的一类天然产物,具有多种生物活性,是一些药用植物的主要活性成分之一。为了进一步研究这类化合物的生物活性和新药研究开发的需要,本论文对多甲氧基黄酮类化合物进行了全合成和结构修饰研究。1、合成一系列多甲氧基查尔酮类化合物。以间苯二酚为原料,经过溴化、甲基化、Williamson醚合成、付-克酰化反应得到2-羟基-3,4,5,6-四甲氧基苯乙酮(6);以香草醛
当下的世界正在一个新媒体时代中,然而,这对于新闻传播的模式也有了很深的影响。我作为一个高三的学生,新闻传播是我很憧憬的工作,我觉得现在新闻也应该紧追时代的脚步,在这
氢传感器能用来在线检测设备由腐蚀反应和其它过程产生的氢,对于保证设备安全运行、减少经济损失,有着重要的意义。本文利用Devanathan-Stachurski电解池原理制造恒电解式与
期刊
钴铁(CoFe)合金纳米复合材料表现出许多优异的物理和化学性能,在磁记录、催化、吸波、生物医学等领域有广泛的应用前景。现有的合成方法受混合前驱体中金属元素活性和分布均