自然语言检索实现决策智能化

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:wodetiantian3321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在社交商务备受重视的今天,企业希望能从大量的视频、邮件、即时通信信息、社交网站信息,甚至人们的微博中获取有价值的信息,了解消费者的购买倾向,预测市场需求,进行决策分析,但非结构化数据的处理却并不是那么容易的。近日,惠普在收购 Autonomy后,宣布推出突破性信息平台Autonomy IDOL 10,帮助企业实时理解和处理结构化和非结构化信息。
  从搜索到发现
  我们知道,传统搜索基本上采用“关键词”搜索,即“非0即1”的方式。这种搜索可以很容易地发现网页之间的链接关系,但它最大的弊病是,如果关键词不确定,或者有错误疏漏,用户往往找不到自己想要的搜索结果。面对非结构化信息,这种搜索方式也显得束手无策。
  而专门针对非结构化数据的Autonomy的搜索方法采用的是模式识别(pattern)技术。所谓模式识别技术,是一种基于语义的分析技术,以贝叶斯函数和香农理论为基础,通过判别识别度的高低来对数据进行检索,会对用户键入的检索内容进行语义上的分析,然后对海量信息进行概念匹配,找出在内容上最接近的数据提供给用户。
  “如果文档中出现‘企鹅’这个词,它到底是代表一种动物,是代表腾讯公司,还是一家出版社?模式识别技术根据上下文来判断其究竟是什么意思。比如与其关联的词出现“鱼腥味”、“黑白色”,机器就明白了,这个情景的企鹅是作为一种动物的意思出现。IDOL 10 通过模仿人脑的阅读过程,做到真正理解在某个具体情境中语言所代表的意义。”惠普子公司 Autonomy 亚太及日本地区企业销售副总裁 Sanjay Aurora在接受记者采访时解释。
  “再假设举例,如果一家全球化公司的德国员工现在要寻找一款轮胎,而此款轮胎的设计是由北京的公司完成的,北京的设计人员没有用惯用的标签标注,用其他的方式命名,类似用轮子替代轮胎。这样,要想在系统中查询肯定是搜不到的,但是基于语义的搜索就能解决这个问题。”如何基于语义处理非结构化数据已经成为企业数据利用的一大课题。
  非结构化数据挖掘
  “近年来,信息技术在硬件方面有了很大进步:芯片的处理速度越来越快,计算的架构不断地发生变化,从大型机到PC,包括现在的云计算,但对信息、数据的理解还停留在关系型数据层面,现在应该更加关注信息,做好信息优化了。”Sanjay Aurora风趣地说。
  中国惠普有限公司软件事业部北方区技术经理魏喜勇向记者介绍,获取计算机能够识别的结构化语言,对信息优化来讲是远远不够的。企业做数据处理面临的挑战有两个:第一,企业要管理由想法和信息构成的自然语言,把所有的信息包括结构化和非结构化的数据都进行统一的管理。自然语言是随时随地产生的,比如每秒产生的9.7万条微博,每分钟产生1200万条的短信,每天产生2940亿封电子邮件等。第二,企业要管理海量数据,比如说商用航班飞行一次要产生240TB的数据,这种大量的数据需要一个高效、智能的信息优化分析的方法来处理。
  “在很长一段时间内,企业使用关系型数据库处理结构化数据,而对非结构化数据使用简单的关键词匹配技术。” Sanjay Aurora 说,“IDOL 10 则融合了这两者,从而让企业能够实时地自动处理、理解和操作所有数据。因此,企业可以开发全新应用去探索丰富多彩的非结构化、半结构化和结构化格式自然语言,结果将是激动人心的。”
  据记者了解,IDOL 10的部署非常简单,实际上它跟很多企业现有数据源有很多接口,它有400多个连接器,可以快速整合企业现有所有数据源,而不需要改变任何现有架构。整合数据后,Autonomy IDOL平台拥有超过500项的强大功能,比如说模式识别、信息关联等技术。据悉,Autonomy也有专门针对基于语义的医疗(Meaning Based Healthcare)方案,处理包括医学影像在内的非结构化数据,做智能医疗方面的应用。
其他文献
近日,北京立华莱康平台科技有限公司(以下简称立华科技)于北京举办了以“创新融合、智领未来”为主题的2012年新品发布会。   此次发布会上,立华科技推出了多款基于Intel第二代智能处理器的网络安全应用平台,同时还邀请了Intel、Wind River、6Wind、Lanner共同探讨下一代网络安全应用解决方案。在发布会上,立华科技展示了其在业界首发的基于Sandy Bridge 架构的FW-8
从左到右依次为(以姓氏拼音为序):  联想集团高级副总裁、中国区总裁 陈旭东  宏图三胞高科技术有限公司总裁、江苏宏图高科技有限公司总裁 程雪垠  武汉艾德蒙科技股份有限公司总裁 段振华  赛门铁克公司全球高级副总裁、亚太及日本区总裁 郭尊华  微软全球资深副总裁、大中华区董事长兼首席执行官 贺乐赋(Ralph Haupter)  东软集团股份有限公司高级副总裁 卢朝霞  甲骨文公司高级副总裁及大
2013年11月29日,在著名的管理学殿堂——北京大学光华管理学院,悉地国际集团(CCDI,下文简称悉地国际)总部知识中心经理陈彦甲代表悉地国际领取了2013 China MAKE(China Most Admired Knowledge Enterprise,中国最受尊敬的知识型组织)大奖。  与业务流程整合  领奖之后,陈彦甲接受了本报记者的独家专访。  目前,悉地国际一共拥有4000名知识型
中标软件有限公司是国家规划布局内重点软件企业、国家高技术产业化示范工程企业、国家“核高基”重大专项重点支持企业,通过了CMMI 5级认证、 ISO9001质量管理体系认证,注册资金2.5亿元。   中标软件旗下拥有中标麒麟、中标凌巧、中标普华三大产品品牌。“自主可控、安全可靠”是中标软件系列产品重点打造的核心特性。旗下产品包括:中标麒麟安全操作系统、中标麒麟安全云操作系统、中标麒麟安全邮件服务器
对于一款针对摄影师设计的大幅面照片打印机,什么最重要?当然是完美的色彩表现和淋漓尽致的细节呈现。近日,日本摄影记者俱乐部就为Epson Stylus Photo R3000颁发了特别奖,这是该协会首次对专业相机以外的设备颁发奖项,可见摄影记者对输出效果的肯定。  R3000的色彩之所以能够得到专业摄影师的认可,和它采用的9色世纪虹彩 K3 VM颜料墨是分不开的。9色世纪虹彩 K3 VM颜料墨重新调
Radware公司的FastView解决方案是业界领先的Web性能优化(WPO)解决方案,也是Radware面向电子商务、电子零售、网络门户、在线金融等在线业务推出的以数据中心为中心的WPO解决方案。FastView可以提升端到端的用户体验并缩短响应时间,同时提高用户满意度、业务转化率、在线收入、搜索引擎效力以及员工生产力等与Web性能息息相关的性能指标。  FastView可以无缝集成到Radw
“我这十年中只请过一次咨询公司来帮我分析捷威(Gateway)的零售战略,避免我们重蹈覆辙。但从自身来讲,我们从来没花钱聘请过咨询师。我们想要做的就是造出好的产品。”乔布斯曾这样说。   捷威公司的商标是彰显其牧场起家背景的奶牛花斑盒,它在中国的昵称为“花斑奶牛”。  花斑奶牛留下的脚印   “有牛粪清香的地方就有捷威电脑。”这是捷威曾经打过的一个独特广告。   1985年,在美国中西部一家
通常情况下,人们会按照数据被访问的频率高低,将数据分成热数据和冷数据。按照信息生命周期管理(ILM)的理论,将冷、热数据进行分层存储,不仅可以优化存储系统的性能,而且可以有效地降低存储系统的整体拥有成本,可谓一举两得。在闪存技术还没有被广泛地应用于企业级存储系统之前,人们已经开始用高性能的光纤磁盘与价格经济的大容量SATA磁盘组合的方式对冷、热数据进行分层存储,热数据存储在光纤磁盘上,冷数据存储在
10月11日,Gartner发布的数据显示,联想已经成为全球第一大PC厂商,颠覆了全球PC市场的格局;  10月12日,联想在上海发布新品类产品——平板笔记本电脑,以Yoga为典型代表的四款新品颠覆了人们对传统笔记本电脑和平板电脑的传统印象;  联想在智能手机、平板电脑、智能电视等市场领域的好消息不断传来……  国际化的联想,让人们对PC 时代的全球市场变局充满期待!  10月12日,上海浦东展览
超极本价格下降的速度之快似乎大大超出了英特尔的预期。英特尔希望超极本的价格在今年年底降到4999元,第一季度未过,神舟电脑和清华同方就提前实现了这一目标,把超极本价格压至3799元。  不过,如此大的价格降幅是否会引起价格战?低价出售是否会导致超极本定位混乱,扰乱英特尔的超极本战略呢?  一再打破价格底线  超极本的价格底线是多少?去年底,这个答案是 6999 元,来自 Acer 蜂鸟 S3;今年