论文部分内容阅读
随着互联网和电子商务在中国的爆炸式发展,以阿里巴巴为首的电子商务公司,正在产生海量的数据并吸引数以亿计的用户。换言之,大数据时代正在步步逼近,面对海量的数据,怎样提高数据利用率,怎样提取用户最想要的,最有价值的信息是核心价值的问题。在电子商务这块战斗在互联网产业最前沿的阵地上,尤其需要快速完成从数据到信息的转化。这就是本文要研究的信息抽取(information extraction)问题,尤其专注于电子商务领域。现有的信息抽取技术主要包括命名实体识别(Named Entity Recognition)和关系抽取(Relation Extraction)。命名实体识别现在主要有以下技术方法:基于规则和词典的方法、基于统计的方法、二者混合的方法等。其中基于规则和词典的方法,在有针对性的优化规则的基础上,准确率很高,但是人力成本较大,可复用和可扩展性不强,往往只能解决某些特定的应用场景。基于统计的方法准确率和召回率往往不尽如人意,算法复杂度也较高,但是可扩展性强,进步空间很大,大量学者致力于改进数学统计模型,以达到更高的准确率和召回率,从而真正实现机器智能识别。经典的命名实体识别模型有HMM(隐马尔科夫模型),ME-HMM(最大熵隐马尔科夫模型),CRF(条件随机场)等。关系抽取是从海量语料中分析抽取命名实体之间的关系,比如地名与机构名之间的从属关系,物品名之间的相似关系,各种简称与全称之间的同义关系等。同时,信息抽取是一个应用性很强的领域,理论算法必须要形成系统实现,才能准确评定算法模型的效果。但是,现在流行的信息抽取系统有华盛顿大学领导开发的OPENIE系列软件包,只能应用于英文信息抽取。现在迫切需要一种高效使用的中心信息抽取系统。本文的主要贡献为:1)介绍了经典的信息抽取模型,分别是命名实体识别领域的HMM,ME-HMM,CRF等,近义词关系抽取领域的词向量模型。同时还介绍了信息抽取任务常用的评价指标准确率,召回率和F值。2)基于经典的命名实体识别模型——隐马尔科夫模型做了针对于电子商务数据的优化,提出了一种基于词汇的隐马尔科夫模型(Lexical-HMM),提升了模型对于电商应用场景下,对于命名实体识别的准确率。对于近义词关系抽取,则提出了一种基于用户搜索和浏览行为的二部图模型,可以高效准确的抽取实体近义关系,并做了对比实验,证明了算法效果。3)设计并验证了本文提出的信息抽取系统。基于Spark平台和人工训练集,采用DAG的设计方式,可以高效准确地从输入数据从抽取命名实体库和近义词库,并验证了系统的效率和稳定性。