基于语句相似度的中文文本复制检测技术研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户：hl217348

【摘要】

：

随着网络和计算机的普及,电子文档成为一种应用广泛的信息存储形式。电子文档方便共享、存储代价低,为知识的传播提供了很大的便利,但是这一特性也导致了复制抄袭的普遍性,文

【作者】

：

张慧云

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2015年01期

【关键词】

：

文本复制检测词语词序相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络和计算机的普及,电子文档成为一种应用广泛的信息存储形式。电子文档方便共享、存储代价低,为知识的传播提供了很大的便利,但是这一特性也导致了复制抄袭的普遍性,文本复制检测技术应运而生。文本复制检测技术主要用于检测文本之间是否存在复制、抄袭等,是自然语言处理领域重要的研究方向,该技术可以应用在数字图书馆系统、搜索系统、论文提交系统等很多领域。在研究基于知网的词语相似度计算方法的基础上,本文提出一种改进的词语相似度计算方法。该方法通过知网的KDML语言,把词语的相似度转换为义原集合的相似度,综合词语含义的共性和差异性,使得相似度计算结果更加合理。此外,还提出一种改进的基于词语结构和词语顺序的文本相似度计算方法。该方法综合考虑了文本的词语语义特征、局部结构特征和词序特征,提取的特征更为全面,计算得到的文本相似度结果更加准确。最后,本文利用提出的基于词语结构和词序的相似度计算方法,实现了中文文本复制检测系统。该复制检测系统基于B/S结构,采用SSH技术框架,包含文本预处理模块、文本检测模块、结果显示模块和样本库模块。论文利用该复制检测系统进行了算法验证,结果证明了改进方法的有效性。

其他文献

大规模三维地形构建技术研究与实现

随着信息技术和地理学科的发展，平面的地图表达已经不能满足人们的需求，越来越多的生产生活需要构建和使用具有高度真实感的三维地形场景。数据获取技术的进步和网络应用的发展

学位

地形构建外存模型地形绘制流式渐进传输地图表达地理信息系统

跨层的AODV局部连通性研究及算法优化

移动自组织网络(Mobile Ad Hoc Network，MANET)是一种无需依赖于任何事先布设的固定基础设施，而仅依靠网络内部各节点之间的协作，就能够完成节点间通信的网络。与传统网络不同的

学位

移动自组织网络AODV路由协议局部连通性算法优化

藏文统计语言模型研究

藏文语言模型是藏文信息处理的基础和核心技术。研究和开发具有强大描述藏语能力的藏文统计语言模型对藏文信息处理的各个应用领域，如机器翻译、藏文语音识别、藏文输入法、藏

学位

藏文统计语言模型自动分词数据平滑词频统计信息处理信息检索

垂直搜索中网页采集的关键技术研究

随着Internet的普及和迅速发展，网络渐渐成为人们生活中不可或缺的组成部分。然而，在WWW这个庞大的知识库中快速且准确地找到想要的信息却不是一件容易的事。20世纪末，聪明的计

学位

垂直搜索引擎网页采集网页更新时间局部性JavaScript解释器

复杂背景条件下红外弱小目标检测技术研究

红外弱小目标检测技术是红外搜索与跟踪、红外预警、红外制导等防御和武器系统中的一项核心技术。研究复杂背景条件下的红外弱小目标检测技术，有利于提高红外探测系统的探测灵

学位

弱小目标检测非均匀校正背景抑制杂波抑制管道算法红外目标图像预处理

应用软件发布与恢复机制研究

在传统的软件开发过程中，开发者更关注软件开发生命周期的管理，而对软件开发后生命周期的管理并不热心。随着信息技术和互联网技术的快速发展，软件产业发生了重大变革。新的软件

学位

软件发布系统恢复软件动态更新生命周期管理软件开发

基于领域本体的服务资源发现技术研究

服务资源发现技术研究是理论界和业界一个热点问题，与该技术相关的服务语义描述和服务精确匹配等研究工作，吸引着越来越多研究人员和业界人士的关注。在学习、生活、工作和生产

学位

服务资源发现服务资源共享服务语义服务结构服务检索领域本体

空间信息网格的资源发现机制研究

地理信息系统(GIS)已历经了单机版GIS，Web GIS两个阶段，并向空间信息网格发展。后者能有效屏蔽网络异构性和各种设备的异构性，从而汇集和共享各种空间信息资源。空间信息网格资

学位

地理信息系统空间信息网格资源发现机制

船舶多层级分类识别技术研究

近年来，随着海上反恐、国际海域争端等问题日益突出，我国的海上安全保障形势日益严峻，海洋安全已成为国家安全的重要组成部分。对船舶快速有效的识别、定位与追踪是对船舶进行有

学位

船舶分类识别参数提取空间位置时空共现模式

自主计算中自组织与自优化研究

自主计算所要解决的是日益复杂的计算环境中所面临的管理与成本问题，提高系统的运行效率，使得系统能够自我管理。自主计算系统能够自动完成复杂任务，具有根据环境变化自我调节、

学位

自主计算自主单元智能主体强化学习效用函数动态关系网

基于语句相似度的中文文本复制检测技术研究

其他学术论文