基于语句相似度的中文文本复制检测技术研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:hl217348
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和计算机的普及,电子文档成为一种应用广泛的信息存储形式。电子文档方便共享、存储代价低,为知识的传播提供了很大的便利,但是这一特性也导致了复制抄袭的普遍性,文本复制检测技术应运而生。文本复制检测技术主要用于检测文本之间是否存在复制、抄袭等,是自然语言处理领域重要的研究方向,该技术可以应用在数字图书馆系统、搜索系统、论文提交系统等很多领域。在研究基于知网的词语相似度计算方法的基础上,本文提出一种改进的词语相似度计算方法。该方法通过知网的KDML语言,把词语的相似度转换为义原集合的相似度,综合词语含义的共性和差异性,使得相似度计算结果更加合理。此外,还提出一种改进的基于词语结构和词语顺序的文本相似度计算方法。该方法综合考虑了文本的词语语义特征、局部结构特征和词序特征,提取的特征更为全面,计算得到的文本相似度结果更加准确。最后,本文利用提出的基于词语结构和词序的相似度计算方法,实现了中文文本复制检测系统。该复制检测系统基于B/S结构,采用SSH技术框架,包含文本预处理模块、文本检测模块、结果显示模块和样本库模块。论文利用该复制检测系统进行了算法验证,结果证明了改进方法的有效性。
其他文献
随着信息技术和地理学科的发展,平面的地图表达已经不能满足人们的需求,越来越多的生产生活需要构建和使用具有高度真实感的三维地形场景。数据获取技术的进步和网络应用的发展
移动自组织网络(Mobile Ad Hoc Network,MANET)是一种无需依赖于任何事先布设的固定基础设施,而仅依靠网络内部各节点之间的协作,就能够完成节点间通信的网络。与传统网络不同的
藏文语言模型是藏文信息处理的基础和核心技术。研究和开发具有强大描述藏语能力的藏文统计语言模型对藏文信息处理的各个应用领域,如机器翻译、藏文语音识别、藏文输入法、藏
随着Internet的普及和迅速发展,网络渐渐成为人们生活中不可或缺的组成部分。然而,在WWW这个庞大的知识库中快速且准确地找到想要的信息却不是一件容易的事。20世纪末,聪明的计
红外弱小目标检测技术是红外搜索与跟踪、红外预警、红外制导等防御和武器系统中的一项核心技术。研究复杂背景条件下的红外弱小目标检测技术,有利于提高红外探测系统的探测灵
在传统的软件开发过程中,开发者更关注软件开发生命周期的管理,而对软件开发后生命周期的管理并不热心。随着信息技术和互联网技术的快速发展,软件产业发生了重大变革。新的软件
服务资源发现技术研究是理论界和业界一个热点问题,与该技术相关的服务语义描述和服务精确匹配等研究工作,吸引着越来越多研究人员和业界人士的关注。在学习、生活、工作和生产
地理信息系统(GIS)已历经了单机版GIS,Web GIS两个阶段,并向空间信息网格发展。后者能有效屏蔽网络异构性和各种设备的异构性,从而汇集和共享各种空间信息资源。空间信息网格资
近年来,随着海上反恐、国际海域争端等问题日益突出,我国的海上安全保障形势日益严峻,海洋安全已成为国家安全的重要组成部分。对船舶快速有效的识别、定位与追踪是对船舶进行有
自主计算所要解决的是日益复杂的计算环境中所面临的管理与成本问题,提高系统的运行效率,使得系统能够自我管理。自主计算系统能够自动完成复杂任务,具有根据环境变化自我调节、