论文部分内容阅读
事件抽取能从海量信息中自动发现事件,收集有关科研领域内的重大事件的信息,提高情报收集整理工作的效率,它能够帮助人们从大量新闻报道数据中获取有价值的情报,更好地把握学科的发展趋势,具有切实的现实意义。 在对事件抽取研究团体、数据集合、事件建模和标注、事件抽取的技术方法详细调研的基础上,结合网络科技信息的特点,明确论文研究的三个关键问题和相应的核心研究任务:(1)如何确定融合条件随机场(Conditional Random Field,CRF)和语义角色标注(Semantic Role Labelling,SRL)的科技事件抽取系统框架;(2)如何对网络科技信息中的事件触发词进行识别;(3)如何对网络科技信息中的事件论元角色进行抽取。 论文针对以上三个问题,主要开展的工作:一、明确了抽取的主要目标要素和表示方法,提出了融合CRF和SRL的科技事件抽取框架和流程,设计候选科技事件句的重要性判断方法,考虑特征词、句子相似度、位置特征、与标题的相似度等,提出时间规格化处理步骤;二、提出了基于Predicate-Argument model的改进触发抽取方法,设计细化动词分类和领域相关度计算的噪声过滤措施,提出触发词相似度计算方法,引入了间距因子、度数因子和深度因子;三、提出融合CRF和SRL的科技事件论元角色识别和抽取方法,构建条件随机场模型进行特征选择的时候,考虑因素主要包括有基本特征、相邻词特征、依存路径特征、句法特征、相对位置、外部词典特征等,还考虑到了语义角色特征,这样既克服了SRL技术直接抽取事件元素的技术困难性和依赖性,还扩大CRF中使用的特征范围,而且选择的特征更加丰富和细致,进一步丰富和改善CRF方法,提高抽取方法的环境独立性,从而摆脱对于其他技术的过度依赖性,从而提高科技事件的抽取效果。分析了融合的相关技术参数估计和特征选择因素,提出一种基于信息增益(information Gain)的特征归纳方法,该方法主要通过计算特征的gain值,再依据一定的规则构造出一个候选特征集合,然后从候选特征集合选择最优的特征子集。在输出结果的概率值的基础上,还尝试使用三种参数作为筛选的依据,用来判断一个特征是否为具有显著性,分别是概率值、概率比值以及概率值方差,以此改善抽取效果。最后,采用监测领域的语料库对提出的方法进行了有效性验证,并和最大熵方法进行了对比试验。 本文虽然取得了一定的成效,但还存在一些不足,未来还将进一步改进抽取方法,加强底层技术攻关,提高事件抽取的精度和召回率,改善事件抽取系统的领域可扩展性和可移植性,关注跨文档、跨语言的事件抽取研究。