【摘 要】
:
中文信息处理技术在日常生活中有十分重要的地位,但其中的基于语义层面上的深层次相似度计算的进展却比较缓慢,目前关于汉语相似度计算的方法或多或少的存在不足,本文基于语
论文部分内容阅读
中文信息处理技术在日常生活中有十分重要的地位,但其中的基于语义层面上的深层次相似度计算的进展却比较缓慢,目前关于汉语相似度计算的方法或多或少的存在不足,本文基于语义依存度计算对汉语句子相似度算法进行了研究。本文针对汉语句子相似度算法和信息检索的特点,对语义依存算法进行了改进,提出了一种基于加权语义依存的句子相似度算法,并将该算法应用于信息查询模型中,对查询结果进行重排序,取得了较好的效果。主要研究内容如下:改进语义依存相似度算法。通过深入分析基于语义依存相似度算法的特点,针对该算法判定句子有效搭配对权重存在不全面的问题,在判定句子有效搭配对的权重时加入了语义角色标注信息;针对该算法丢弃句子有效次关键词信息的问题,结合词形与词义相似度算法的特点,对语义依存进行加权。提出了基于加权的语义依存相似度的算法,实验结果表明该算法提高了句子相似度计算的准确性。改进算法的应用——提出重排序算法。如何同时提高查询系统的查全率和查准率是信息查找领域的一个难题。针对该问题,用基于加权语义依存相似度算法对查询结果做重排序处理,通过计算原查询语句与查询结果的前K个文档标题的相似度,对查询结果重新排序,从而提高前K个返回结果的查准率。实验证明,本方法在确保系统查全率的基础上进一步提高了系统的查准率。
其他文献
随着集成电路制造工艺的不断发展,NAND Flash因其非易失性、低功耗、低成本、大容量等特点被广泛应用于各类嵌入式系统中,而设计一款通用、高效的NAND Flash控制器,开发相应的设
头发作为人体的重要特征,对于真实的表示三维虚拟人物起着不可或缺的作用。真实感的头发模拟是计算机图形学中的研究热点,并有着广泛的应用,例如:化妆造型、三维电影和虚拟游
在企业、政府中存在大量不同时期、由不同厂商、在不同平台上建设而成的系统,由于缺少统一规划和标准,彼此之间很难实现信息共享,形成了大量孤岛式的业务应用系统。因此,如何
随着高性能计算需求的不断增长,千万亿次的高性能计算机成为了当前高性能计算领域的研究热点。曙光6000高效能计算机系统是国家智能计算机研究开发中心正在研发的千万亿次超级
对等网络(Peer-to-Peer,简称P2P)技术发展迅速,在现代互联网和商业系统中得到了广泛应用,尤其在大规模的资源检索和内容分发系统中起到非常重要的作用。P2P网络的核心在于如何快
在现代印刷行业中,预涂感光版(Presensitized Plate,PS版)作为最主要的胶印印刷版正发挥着越来越重要的作用。其品质的优劣在很大程度上决定着印刷产品质量的好坏。而PS版面
基于图像的三维重建技术,即利用拍摄的多幅图像来重建物体或场景的三维模型,相比较利用激光扫描设备获取点云数据进行模型重建的方法,该方法对摄像机设备没有较高的要求,并且受环
随着信息传播的重要新媒介网络的产生,BBS已经成为了传播最快的公共平台之一。在这个复杂的网络环境中,社会中各种现象、问题和观点交错其中,不但存在着正面的信息,也潜存着
动画作品在当今社会中已经是随处可见,同时越来越多的人想要通过动画来表达观点或想法,人们对于动画制作的需求日益增长,不仅仅是专业的动画制作人,也包括很多非专业动画制作
软件开发环境由软件开发工具和工具集成机制构成,为软件的开发、维护及管理提供统一的支持。随着软件技术的发展,软件开发环境面临着如下问题:不能重用同领域内的可复用的知