融合CRF和SRL的科技事件抽取研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ivyJZ2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件抽取能从海量信息中自动发现事件,收集有关科研领域内的重大事件的信息,提高情报收集整理工作的效率,它能够帮助人们从大量新闻报道数据中获取有价值的情报,更好地把握学科的发展趋势,具有切实的现实意义。  在对事件抽取研究团体、数据集合、事件建模和标注、事件抽取的技术方法详细调研的基础上,结合网络科技信息的特点,明确论文研究的三个关键问题和相应的核心研究任务:(1)如何确定融合条件随机场(Conditional Random Field,CRF)和语义角色标注(Semantic Role Labelling,SRL)的科技事件抽取系统框架;(2)如何对网络科技信息中的事件触发词进行识别;(3)如何对网络科技信息中的事件论元角色进行抽取。  论文针对以上三个问题,主要开展的工作:一、明确了抽取的主要目标要素和表示方法,提出了融合CRF和SRL的科技事件抽取框架和流程,设计候选科技事件句的重要性判断方法,考虑特征词、句子相似度、位置特征、与标题的相似度等,提出时间规格化处理步骤;二、提出了基于Predicate-Argument model的改进触发抽取方法,设计细化动词分类和领域相关度计算的噪声过滤措施,提出触发词相似度计算方法,引入了间距因子、度数因子和深度因子;三、提出融合CRF和SRL的科技事件论元角色识别和抽取方法,构建条件随机场模型进行特征选择的时候,考虑因素主要包括有基本特征、相邻词特征、依存路径特征、句法特征、相对位置、外部词典特征等,还考虑到了语义角色特征,这样既克服了SRL技术直接抽取事件元素的技术困难性和依赖性,还扩大CRF中使用的特征范围,而且选择的特征更加丰富和细致,进一步丰富和改善CRF方法,提高抽取方法的环境独立性,从而摆脱对于其他技术的过度依赖性,从而提高科技事件的抽取效果。分析了融合的相关技术参数估计和特征选择因素,提出一种基于信息增益(information Gain)的特征归纳方法,该方法主要通过计算特征的gain值,再依据一定的规则构造出一个候选特征集合,然后从候选特征集合选择最优的特征子集。在输出结果的概率值的基础上,还尝试使用三种参数作为筛选的依据,用来判断一个特征是否为具有显著性,分别是概率值、概率比值以及概率值方差,以此改善抽取效果。最后,采用监测领域的语料库对提出的方法进行了有效性验证,并和最大熵方法进行了对比试验。  本文虽然取得了一定的成效,但还存在一些不足,未来还将进一步改进抽取方法,加强底层技术攻关,提高事件抽取的精度和召回率,改善事件抽取系统的领域可扩展性和可移植性,关注跨文档、跨语言的事件抽取研究。
其他文献
高碑店市商业贸易总公司共有下属企业5个,近年来,由于市场疲软、资金短缺、企业包袱沉重、内部经营机制不灵活等诸多原因,至1998年6月底,全系统销售总额4498万元,同比下降35
随着信息技术、多媒体技术等网络技术的进步,网络杂志这种新型传播媒体得到了飞速的发展。这种出版方式给中国出版业带来了巨大影响,成为当今的出版热点。网络杂志的出现不仅为
随着出版社信息化程度不断提高,越来越多的出版社开设了自己的网站,确立网上的出版形象。这些形态各异的网上门面,也在昭示着个性化时代的到来。我国出版社的网站形象大多呆板、
随着网络信息的急速增长,传统搜索引擎面临着索引规模、更新速度和个性化需求等多方面挑战。面对这些挑战,适应特定主题和个性化搜索的主题(聚焦)网络爬虫(Topiical Crawler
电子商务是经济和科学技术发展到一定程度的必然产物,它的发展将给社会、经济和生活等各个领域带来一场深刻的变化。伴随着电子商务的蓬勃发展,档案领域的信息服务性质也将发生
随着全球化的发展,科学技术越来越成为推动经济社会发展的主要力量,世界各国都在抢占科技的制高点。中国科技成果的数量在逐年增长,但是科技成果的转化效率却不容乐观,专利作为科
期刊
随着教育城域网的不断普及和覆盖范围的扩大,各高校纷纷投入巨资建设数字化图书馆以及各类教学资源库。但是,在建设过程中也出现一些问题:各个学校、部门系统平台建设和数字
本文通过将商业经济领域的相关竞争理论尤其是竞争优势理论和核心竞争力理论引入到图书情报机构的战略管理实践中,就如何构建并保持图书情报机构的核心竞争力提出了策略性建议
学位
1984年2月11日《南方周末》创刊,以《南方日报》星期六增刊的形式出现,是一份休闲娱乐性报纸。今天的《南方周末》成长为中国发行量最大、公信力最强、影响最大、版数最多的