论文部分内容阅读
理论上讲,FBI御用的语音技术能够监听所有的电话通话内容。假如你说了“核弹”这样的敏感词汇(极可能被他们列为关键词),那他们就要忙乎一阵子了,他们会把注意力集中过来,用一套天价语音系统分析你究竟是否会构成威胁。
当然,语音应用也并不都那么高深莫测,手机里的语音拨号已经成为最大众化的应用之一。就在不久前,比尔·盖茨又预言,未来5年,人与电脑的互动方式将发生重大变革,现有的鼠标和键盘将被触摸、视觉和语音所代替……
世界之最难技术
语音技术包含语音合成、语音识别两大部分,其中,后者是业内公认最难的技术,当今计算机运算速度越来越快,存储容量越来越高,而语音识别却依然没有什么突破性进展。中科院自动化所模式识别国家重点实验室研究员徐波解释说,语音技术属于人工智能范畴,要让电脑模拟人脑,这本来就是一个非常难的领域,因为人脑的思维是非线性的,非纯逻辑性的,而计算机是二进制、纯逻辑的。语音合成是让计算机说,就好比银行里的叫号机,“请——一百——零——三号——到——第五柜台办理”。这些词汇元素,是事先录好在数据库里,然后按需求抽取出来,合成在一起后再播放出来。但由于合成的不好,我们听到的是断断续续的播报。不过好在接收方是人,尽管不连贯,人们还是能听懂。而语音识别就不一样了,它是让计算机听懂人话,接收方是计算机,人们的词汇量是何其大,各地方言也千差万别,再加上在嘈杂的环境中,计算机更是无法分辨哪些是背景噪声,而哪些又是真正需要接收的语音指令。
“1981年,日本投资了1千亿日元,第一次向世界宣告要开始研制‘第五代计算机’,目标是做一个人工智能化的信息采集、存储、处理、通信计算机系统,具有形式化推理、联想、学习和解释的能力,甚至能够帮助人们进行判断、决策、开拓未知领域和获得新的知识。其中特别提到,人机之间可以直接通过自然语言或图形图像交换信息。但是计划最终以失败告终,因为科学家们认识到,要研究第五代计算机,先要研究语言学家,研究人的思维,而这又是一项复杂而漫长的工程。”他说。
语音技术民间化
当初,“第五代计算机”开发计划被制定为10年,然而将近30年后的今天,我们依然没有完成这个梦想。这么看来,比尔·盖茨预言的5年,貌似也是个可望不可及的梦想了?当然不是,语音技术已经今非昔比,并且渗透到咱们生活的方方面面。
从可以读短信的语音王手机,到可以辅助读网络小说的“语音电子书”软件(如今还有手机使用的版本),还有银行、运营商等服务热线,语音合成技术已经告别了磕磕巴巴朗读的年代,清晰流畅得可以和真人相比。但是在语音识别领域,进展还没有前者那么快速。即便是拥有40多年提供语音解决方案的经验、150多个语音技术专利、语音识别产品在全球销售已达一百万套以上,领导了世界的语音识别技术的IBM,其语音识别的主打软件ViaVoice(第一个全功能的语音指令桌面程序,可以用语音在PC、手提设备、汽车系统和自动客户服务系统之间进行信息交流)也令人感到生硬。“用它输入太慢了,还不如键盘敲字,谁会去用呢?”曾经试用过ViaVoice的李先生对记者说。
记者在采访中科院声学所专门研究语音交互技术的杜利民博士时问道:“在某博览会上曾经展出的可以和人对话的机器人,是不是就是一个语音识别技术市场化的未来方向?”杜博士说:“语音玩具不能说不是一个趋势,但这类产品一定是有用的,能为人们带来一定价值的,而不是靠炒作科技概念。只有这样的产品,才能真正让人愿意掏钱去购买,走入家庭。”
国际巨头的语音试验田
微软是个如此庞大的公司,它当然什么都想做,而语音是尤其受到比尔·盖茨推崇的,他从很早就相信,语音技术在未来的人机交互中一定占绝对优势,既然这样,主打操作系统的微软怎么能不做语音?也就从那时起,微软研究院的语音组诞生了。前有老大盖茨的理想,后有Windows操作系统和Office办公软件在赢利上撑腰,语音组虽然一直没赚钱,但也义无反顾地坚持了下来。
Google也在做语音技术,他们当然也结合了搜索的老本行,两者结合就有了Google411,并且在未来,这种服务会更加便利和无处不在。这是一项很有意思的服务,类似于过去的“接线员”。你说“想找个咖啡厅”,Google411就会自动给你报出一系列本地咖啡厅的名字。你告诉它想要的咖啡厅编号,它会帮你自动转接到该咖啡厅。你也可以要求它发短信告诉你相关信息,或者发送Google地图到你手机上。而这项听起来方便得诱人的服务嫁接到中国就变了个样子。
Google411目前只面向美国本土服务,但是中国老百姓也有这个需求呀,用不了不是干着急吗?没事,我们还有百度,不过拨通电话后,那头并不是自动的语音应答分析系统,而是活生生的人。在国家智能计算机研究开发中心、中国科技大学人机语音通信实验室的基础上组建的科大讯飞公司研究院院长胡郁表示,百度语音搜索瞄向了一个很有前景的市场,但是随着用户量的增大,后台用人去搜索肯定会增加成本,并影响服务质量。因此,只有建立真正的自动化语音服务系统,才可能在这个领域做下去。
当然,我们还不能不提到IBM这个语音领域的巨头,然而,如同IBM卖掉PC业务一样,把利润变薄的业务甩掉,便于把更多财力、精力投入到更赚钱的业务上去。现阶段看来,语音市场风险还比较大,还不够热到让IBM下大本儿来运作,因此IBM更将语音视为一种技术研究和储备。
中国企业的挑战与机遇
分析了国际巨头们在语音技术领域的力量体系,国内的语音企业要向哪个方向发展才能敌过他们?科大讯飞的胡院长对记者说:“大公司的优势毋庸置疑,但这些优势也在一定程度上限制了他们的思维和对市场的应变速度。在这些公司里做语音,只需要把技术做好就行了,他们的市场意识并不很强,还没有考虑要通过这些技术创造多少价值。而对于我们国内企业,特别是专门从事语音技术的企业,则要把技术研发、设计、产品、市场一条线串联起来。找准切入点,迅速地拉动市场对语音产品的需求。大公司的梦想需要5年,而我们会用3年来实现看似并没有那么宏大的目标。”
摆在国内语音企业面前的路有几条:第一,学习百度模式。概念來自Google,可却在本地市场深入人心。语音企业也可以借鉴国外的技术和经验,将它们挪到国内来做本土化的落地;第二,成为核心技术的提供商。目前类似步步高、好记星等学习机以及其他产品里的语音识别、语音合成系统都是由像科大讯飞这样的公司提供的;第三,既做核心技术,又做终端服务。一个新的领域就是语音评测,当我们在学习一门语言的时候,这类产品可以帮我们纠正发音。不仅会受到终端用户的喜爱,也会被考试部门接受;第四,做大公司做不了的事情。像微软、Google这样的公司,研发语音技术,只会为自己服务,那么和他们竞争的企业就也会需要语音技术来与之抗衡,可以输出技术到像百度、电信运营商等这样的公司。
“总之,这个领域充满了机会。对于我们这些专门做语音的公司,我们没有别的选择,只能全力以赴地把它做好。”胡院长最后总结说。
当然,语音应用也并不都那么高深莫测,手机里的语音拨号已经成为最大众化的应用之一。就在不久前,比尔·盖茨又预言,未来5年,人与电脑的互动方式将发生重大变革,现有的鼠标和键盘将被触摸、视觉和语音所代替……
世界之最难技术
语音技术包含语音合成、语音识别两大部分,其中,后者是业内公认最难的技术,当今计算机运算速度越来越快,存储容量越来越高,而语音识别却依然没有什么突破性进展。中科院自动化所模式识别国家重点实验室研究员徐波解释说,语音技术属于人工智能范畴,要让电脑模拟人脑,这本来就是一个非常难的领域,因为人脑的思维是非线性的,非纯逻辑性的,而计算机是二进制、纯逻辑的。语音合成是让计算机说,就好比银行里的叫号机,“请——一百——零——三号——到——第五柜台办理”。这些词汇元素,是事先录好在数据库里,然后按需求抽取出来,合成在一起后再播放出来。但由于合成的不好,我们听到的是断断续续的播报。不过好在接收方是人,尽管不连贯,人们还是能听懂。而语音识别就不一样了,它是让计算机听懂人话,接收方是计算机,人们的词汇量是何其大,各地方言也千差万别,再加上在嘈杂的环境中,计算机更是无法分辨哪些是背景噪声,而哪些又是真正需要接收的语音指令。
“1981年,日本投资了1千亿日元,第一次向世界宣告要开始研制‘第五代计算机’,目标是做一个人工智能化的信息采集、存储、处理、通信计算机系统,具有形式化推理、联想、学习和解释的能力,甚至能够帮助人们进行判断、决策、开拓未知领域和获得新的知识。其中特别提到,人机之间可以直接通过自然语言或图形图像交换信息。但是计划最终以失败告终,因为科学家们认识到,要研究第五代计算机,先要研究语言学家,研究人的思维,而这又是一项复杂而漫长的工程。”他说。
语音技术民间化
当初,“第五代计算机”开发计划被制定为10年,然而将近30年后的今天,我们依然没有完成这个梦想。这么看来,比尔·盖茨预言的5年,貌似也是个可望不可及的梦想了?当然不是,语音技术已经今非昔比,并且渗透到咱们生活的方方面面。
从可以读短信的语音王手机,到可以辅助读网络小说的“语音电子书”软件(如今还有手机使用的版本),还有银行、运营商等服务热线,语音合成技术已经告别了磕磕巴巴朗读的年代,清晰流畅得可以和真人相比。但是在语音识别领域,进展还没有前者那么快速。即便是拥有40多年提供语音解决方案的经验、150多个语音技术专利、语音识别产品在全球销售已达一百万套以上,领导了世界的语音识别技术的IBM,其语音识别的主打软件ViaVoice(第一个全功能的语音指令桌面程序,可以用语音在PC、手提设备、汽车系统和自动客户服务系统之间进行信息交流)也令人感到生硬。“用它输入太慢了,还不如键盘敲字,谁会去用呢?”曾经试用过ViaVoice的李先生对记者说。
记者在采访中科院声学所专门研究语音交互技术的杜利民博士时问道:“在某博览会上曾经展出的可以和人对话的机器人,是不是就是一个语音识别技术市场化的未来方向?”杜博士说:“语音玩具不能说不是一个趋势,但这类产品一定是有用的,能为人们带来一定价值的,而不是靠炒作科技概念。只有这样的产品,才能真正让人愿意掏钱去购买,走入家庭。”
国际巨头的语音试验田
微软是个如此庞大的公司,它当然什么都想做,而语音是尤其受到比尔·盖茨推崇的,他从很早就相信,语音技术在未来的人机交互中一定占绝对优势,既然这样,主打操作系统的微软怎么能不做语音?也就从那时起,微软研究院的语音组诞生了。前有老大盖茨的理想,后有Windows操作系统和Office办公软件在赢利上撑腰,语音组虽然一直没赚钱,但也义无反顾地坚持了下来。
Google也在做语音技术,他们当然也结合了搜索的老本行,两者结合就有了Google411,并且在未来,这种服务会更加便利和无处不在。这是一项很有意思的服务,类似于过去的“接线员”。你说“想找个咖啡厅”,Google411就会自动给你报出一系列本地咖啡厅的名字。你告诉它想要的咖啡厅编号,它会帮你自动转接到该咖啡厅。你也可以要求它发短信告诉你相关信息,或者发送Google地图到你手机上。而这项听起来方便得诱人的服务嫁接到中国就变了个样子。
Google411目前只面向美国本土服务,但是中国老百姓也有这个需求呀,用不了不是干着急吗?没事,我们还有百度,不过拨通电话后,那头并不是自动的语音应答分析系统,而是活生生的人。在国家智能计算机研究开发中心、中国科技大学人机语音通信实验室的基础上组建的科大讯飞公司研究院院长胡郁表示,百度语音搜索瞄向了一个很有前景的市场,但是随着用户量的增大,后台用人去搜索肯定会增加成本,并影响服务质量。因此,只有建立真正的自动化语音服务系统,才可能在这个领域做下去。
当然,我们还不能不提到IBM这个语音领域的巨头,然而,如同IBM卖掉PC业务一样,把利润变薄的业务甩掉,便于把更多财力、精力投入到更赚钱的业务上去。现阶段看来,语音市场风险还比较大,还不够热到让IBM下大本儿来运作,因此IBM更将语音视为一种技术研究和储备。
中国企业的挑战与机遇
分析了国际巨头们在语音技术领域的力量体系,国内的语音企业要向哪个方向发展才能敌过他们?科大讯飞的胡院长对记者说:“大公司的优势毋庸置疑,但这些优势也在一定程度上限制了他们的思维和对市场的应变速度。在这些公司里做语音,只需要把技术做好就行了,他们的市场意识并不很强,还没有考虑要通过这些技术创造多少价值。而对于我们国内企业,特别是专门从事语音技术的企业,则要把技术研发、设计、产品、市场一条线串联起来。找准切入点,迅速地拉动市场对语音产品的需求。大公司的梦想需要5年,而我们会用3年来实现看似并没有那么宏大的目标。”
摆在国内语音企业面前的路有几条:第一,学习百度模式。概念來自Google,可却在本地市场深入人心。语音企业也可以借鉴国外的技术和经验,将它们挪到国内来做本土化的落地;第二,成为核心技术的提供商。目前类似步步高、好记星等学习机以及其他产品里的语音识别、语音合成系统都是由像科大讯飞这样的公司提供的;第三,既做核心技术,又做终端服务。一个新的领域就是语音评测,当我们在学习一门语言的时候,这类产品可以帮我们纠正发音。不仅会受到终端用户的喜爱,也会被考试部门接受;第四,做大公司做不了的事情。像微软、Google这样的公司,研发语音技术,只会为自己服务,那么和他们竞争的企业就也会需要语音技术来与之抗衡,可以输出技术到像百度、电信运营商等这样的公司。
“总之,这个领域充满了机会。对于我们这些专门做语音的公司,我们没有别的选择,只能全力以赴地把它做好。”胡院长最后总结说。