基于定义的多策略同义术语识别方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:moniter2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章通过对国内外同义词识别方法、基于定义的同义词识别方法进行归纳总结,分析了各个方法的原理以及在应用过程中的优缺点。提出仅利用已有的术语及定义信息实现同义术语识别,并且针对单一方法不能实现全方位、多层次的同义术语识别问题,提出了利用多策略融合方法实现互补性地同义术语识别,并对国内外多策略同义词识别方法进行了归纳总结,发现融合方式大多数为多策略结果的合并去重和加权融合,尚未充分利用融合方法实现多策略的融合。因此,文章采用了三种融合方法进行多策略融合实验,探讨了利用多策略融合方法进行同义术语识别的效果。  首先,借鉴朱毅华的基于词素的字面相似度算法,设计了基于定义匹配的同义术语识别方法,将对术语的相似度判断转换成对术语定义的相似度判断,并且分别根据相同实词出现数量及相同实词出现位置设计了两种相似度计算方法。结合模糊综合评判原理,设计了基于模糊综合评判的多策略融合算法,在模糊综合评判中引入了连续属性离散化方法进行属性区间的划分,将样本的分布概率作为各个因素在不同区间下对应评判集的隶属度,采用了粒子群算法和交叉验证方法确定各个因素的最优权重分配。  然后,以新能源汽车汉语科技词系统中的术语及其定义作为语料进行实验,首先从字面、句法、语义三个角度分别选取了字面相似度算法、模式匹配算法以及定义匹配算法进行同义术语识别实验;然后从适用性的角度选择了线性加权组合方法、基于SVM的机器学习法以及改进的多策略模糊综合评判法进行多策略融合实验。  最后,利用了准确率、召回率及F值对实验结果进行评价。实验结果表明,三种单一的同义术语识别方法识别的准确率和召回率均较低,但是这三种方法的识别结果重合率低、互补性强,而采用多策略融合方法互补性地将这些单一的方法进行融合,实现了全方面、多层次的同义术语识别,提高了同义术语识别的准确率和召回率。
其他文献
用户教育是高校图书馆的一项重要工作,它担负着对高校图书馆用户的教育和培训任务。在当前的网络环境下,高校图书馆的信息环境、服务方式和用户需求的改变导致了用户对信息资源
分析国内外公益数字文化建设运行理念的异同。提出我国公益数字文化建设需要完善政策法规支撑体系,加大投入力度,构建专项资金管理制度、转移支付制度等多级财政保障制度,合
传媒企业是以生产“知识产品”为主的企业。在知识经济时代,知识管理的实施直接关系到传媒企业核心能力与竞争优势的提升。本文首先通过对传媒企业的管理方式、核心能力以及价
通过相关案例的调查确定图书馆数字资源引进后合作管理的内容主要包括:资源评估的合作、资源保存的合作以及资源目录建设的合作,并对引进后的合作管理方式进行归纳和分析。其
信息检索(IR)泛指用户从包含各种信息的文档集中找到所需要的信息或知识的过程。传统的信息检索系统主要是针对单一语种的文档集实现,一般是使用用户最为熟悉的语种作为查询语言
简介科研数据应用的新发展以及科研数据权益管理的新挑战。描述德国国家科技图书馆的可扩展架构以及其中的科研数据入口网站GetInfo、永久性识别服务DOI、全球性数据引用服务
人才网在毕业生和用人单位之间架起一条跨越时空的信息高速公路。网上人才交易可以减少用人单位的招聘和毕业生的应聘之间不必要的限制,促进双方更广泛的交流,提高双向选择的效
比对美国《新时代的新角色:研究图书馆为研究生服务》报告和国内相关文献,辅以图书馆网站调研,发现中美图书馆都是以学科馆员与学科化服务、教育培训、宣传推广和学习共享空
随着我国社会主义市场经济体制的建立和完善,各行各业的竞争日益激烈。房地产业也成为中国当前和今后一个时期新的经济增长点。房地产营销代理企业作为市场主体之一,也正发挥着
指出跨学科与转化研究模式的兴起为图书情报学领域提供了新的挑战与机遇,并分析国外图书馆或情报学机构支持转化研究的实践或行动,包括:①转化型研究文献的检索;②临床数据管