面向领域中文文本信息处理的术语语义关联挖掘研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:caery
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语集中承载特定领域的核心知识,术语的自动抽取及语义关联挖掘能够辅助人们便捷地获得和积累该领域知识,是信息检索、信息抽取、数据挖掘、机器翻译、建立领域概念体系等自然语言处理技术的重要基础。本论文的研究目的就是从理论与实践两个方面对术语自动抽取及语义关联进行分析、讨论,以便构建专门的术语语义关联挖掘系统,提升中文信息处理水平。本文的研究工作主要包括以下几个方面:   首先,本论文充分调研国内外研究现状,分析研究了术语的语言结构特征和领域特征,重点比较分析了术语抽取及语义层次关联的流程、方法以及面临的挑战。   其次,从条件随机场方法的内在原理、优势及研究成果出发,对选取条件随机场方法进行术语抽取的依据进行了分析,基于此研究并设计了中文术语自动识别与抽取模型,包括预处理及特征赋值、特征函数构建、模型训练和应用模型对术语进行边界标注。   第三,针对抽取出来的中文领域术语,首先基于领域文档构建术语向量空间,然后采用自顶向下的多重聚类方法获取层次关联。在此本文选取了改进的K-means和确定性退火两种聚类算法获取层次关系。在每一层聚类结束之后,本文提出一种综合相似度计算方法解决了层次内部类标签提取的问题。   最后,研究并实现了术语自动抽取和语义层次关联的原型系统,并选取了部分中文专利文本摘要数据集对系统的效果进行测试与评估。在术语抽取评估部分,本文设计了三种特征模板,实验结果显示融入更多有意义的复合特征模板效果最好,F值为0.9386。有关术语语义层次关系的评估,本文提出一种求层次树的邻接矩阵相似度的方法,将两种聚类方法得到的结果分别与专家建立的标准层次树求相似度,相似度值越大效果越好。在语料规模为1000篇文档时,基于确定性退火聚类算法得到的相似度最大值为0.65。  
其他文献
从唯一标识符在国内外的应用情况及其在数字内容管理中的角色入手,在分析及当前我国数字内容管理存在问题的基础上,结合我国数字内容管理中存在的需求,讨论中文内容唯一标识
新《课程标准》指出:“动手实践、自主探索与合作交流是学生学习数学的重要方面。数学学习活动应是一个生动的、活泼的、主动的和富有个性的过程。”学生动手实践“做一做”,使得数学学习活动生动活泼、主动的一个重要教学方法就是数学的直观教学。  所谓直观教学,简单的说就是利用某些教具、学具,包括投影、录像、计算机软件、多媒体等现代化教育教学手段为辅助教学的一种教学方法。  一、运用直观教学可以激发学生的学习兴
物理学科是一门实践性、应用性很强的学科,是培养学生各方面能力的优势学科。作为物理教学工作者,我们要十分重视科学、技术与社会相结合,解放学生的大脑和双手,增加实践的时间与
科学文献是体现科研活动情况的表现形式之一。通过对科学文献的计量分析,我们可以对科研活动的情况有所了解。科学文献信息中包含了作者、题目、机构地址、出版时间、参考文
冬去春来,万物复苏.在2020这个春天,我们都曾有过紧张,有过担忧,甚至还有悲伤.但是,不管怎样,我们都要“挺住”“加油”……这一期,我们就来学一学“怎样鼓励他人,怎样给自己
期刊
网络用户评论是传统口碑的网络化形式,随着电子商务的日益成熟与网购的流行,网上产品评论呈爆炸式增长,这些评论一方面作为一种反馈机制能帮助企业了解自身产品和服务存在的优点
探讨社会网络与企业内部知识共享在理论上的关联,并在关系层次和结构层次上加以论证,进而研究社会网络关系维度中各种因素对企业内部知识共享存在的影响。重点是构建一种知识
从基于社会网络的企业知识共享理论研究出发,选取中兴公司网络技术支持部门为案例,从企业内部人员的组织关系与网络结构方面,用社会网络分析法对这种独特视角下的知识共享流
期刊
根据水平管外蒸气轴向流动速度随轴向距离的增加而逐渐减小的流动特性 ,建立了边界层外蒸气轴向流动速度方程 ,通过对数学模型的数值求解 ,得到了无量纲液膜厚度及凝结换热系