基于词向量模型的中文序列比对研究

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:littlesilverfox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]针对生物信息学中著名的序列比对算法在文本相似度中的应用,改进前人的方法并提高文本相似度计算的准确性.[方法/过程]首先,对目标文本进行规范化处理,构成中文序列集.随后,利用训练好的Word2vec中的Skip-Gram模型来构建该中文序列集的语词对打分矩阵并制定好打分规则.最后,对中文序列两两进行全局比对并获得比对的最优解,回溯得到最优解的比对路径,计算中文序列的相似度.[结果/结论]实证结果表明,相较于传统方法,本文方法融合词向量模型提升文本相似度计算的准确性并有效解决传统方法中出现重复词对的问题.
其他文献
[目的/意义]针对当前各图书馆、文化馆等公共文化服务机构的多源异构数据,设计出一套行之有效的集成架构.[方法/过程]在充分分析公共文化大数据资源的基础上,对公共文化服务
森林火灾是最为常见的灾害之一,严重危及人类生命安全。及时准确监测森林火灾的发生及火场状况,对应对火灾及减少损失至关重要。当前,森林火灾卫星遥感监测主要以低空间分辨率的卫星遥感为主,空间分辨率过低导致无法探测规模较小火灾及掌握详细火场态势。针对这一问题,结合近些年中高空间分辨率卫星观测、共享及处理能力的发展,本文从森林火灾卫星遥感监测的基本原理、当前可用中高空间分辨率卫星数据及其特点、中高分辨率森林
[目的/意义]选取国内外15家科学数据中心的科学数据质量评价指标,旨在筛选能够客观反映科学数据质量的共性指标,构建具有普适性的科学数据质量评价指标体系.[方法/过程]采用
[目的/意义]在大数据时代,大数据是安全情报学所面临的客观环境.因此,探讨大数据环境下安全情报学的变革与发展是非常必要的.[方法/过程]基于学科高度,聚焦于大数据环境下安
[目的/意义]古籍编目是古籍保护的核心内容和基础工作,“中华古籍保护计划”实施13年来,我国图书馆古籍编目工作取得了很大进展,同时也面临很多问题,这些问题应当引起国家层
[目的/意义]需求一直是提高服务质量和服务水平的关键所在,从客户需求视角探究有效的知识服务方式对于保障智库的知识服务质量,提高智库的服务水平和影响力具有重要意义.[方
[目的/意义]研究以科学数据为信息载体,探究用户在进行数据检索时,影响其进行相关性判断的标准的使用特征,从而进一步探究科学数据用户的信息行为,为完善数据检索平台和加强
自约瑟夫·熊彼特提出“创新理论”,认为创新是企业获取超额利润的关键,是经济发展的根本动力之后,众多学者开始从不同角度、不同层面研究创新问题。在经济全球化、新技术革命形势的力推下,作为创新的重要主体—企业,有效利用创新方法,降低生产成本、提高生产效率、增强创新凝聚力,将对我国企业的发展乃至整个社会的和谐稳定发展具有重要意义。企业采用的创新方法往往是自己总结归纳,或者直接引进来自外部的优秀方法,对企业
[目的/意义]通过政策计量视角观察当前我国公共文化服务政策环境全貌,优化公共文化服务政策设计,提供政策、研究、实践等板块之间进行比较的思路与资料库.[方法/过程]收集公
[目的/意义]面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效