论文反抄袭软件被“攻克”

来源 :北京科技报 | 被引量 : 0次 | 上传用户:zgr2020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本是为防学术不端的论文抄袭检测系统,近来频频遭遇攻克。淘宝出卖个人自测服务系统,大学生可根据检测结果提前对毕业论文进行针对性的“易容”。
  
  本是为防学术不端的论文抄袭检测系统,近来频频遭遇攻克。淘宝出卖个人自测服务系统,大学生可根据检测结果提前对毕业论文进行针对性的“易容”,而记者甚至还在百度文库中搜索到一份自称从中国知网内部工作人员手中拿到的“知网论文反抄袭检测系统的算法与修改秘籍”。
  这种状况,让学者对论文抄袭检测系统在高校的推广提出了质疑,防止学术不端究竟该靠什么?
  
  论文抄袭检测系统有用吗?
  
  自1991年WordCheck软件应用以后, 自然语言文本的抄袭识别技术在国外就有了较大的发展,出现了多个抄袭识别系统,可以说国内正是效仿国外从而诞生了这类技术软件。
  武汉大学信息管理学院教授沈阳告诉《北京科技报》,反抄袭软件的核心原理就是把两段话进行比对,简单说就是把一段话与已有文献库中所有文献的字符串进行比对,看文本字符串的相似度达到多少。
  “比对原理很简单,难的是构建对较对象的数据库。”沈阳说,“理论上,最完善的系统必然是拥有世界上所有文献的数据库,这样,抄袭的文章丢到里面进行比对才不会出现侥幸逃脱的可能性。”
  据了解,中国知网开发的学术不端行为检测系统是目前使用范围最广的官方检测系统,其比对库包含了中国学术期刊网络出版总库、中国博士学位论文、中国优秀硕士学位论文全文数据库、中国重要会议全文数据库文、中国重要报纸全文数据库、中国专利全文数据库等,基本覆盖了除书籍之外的所有中文科技学术文献。
  对于任意一篇需要检测的文献,该系统首先会对其进行分层处理,按照篇章、段落、句子等层级分别创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。原则上,只要检测文献与比对文献存在一个相同的句子,就能被检测系统发现。
   《资源科学》杂志是中科院地理科学与资源研究所和中国自然资源学会主办的学术月刊。从2009年1月起,编辑部开始使用“科技期刊学术不端文献检测系统”对自由来稿进行检测。根据两年多的使用情况,该刊副主编李家永研究员认为,该系统是一个非常实用的检索工具。
  他向记者解释,该刊来稿的文字复制率分布具有稳定性特征。“复制率<5%的稿件约占一半,<20%的约占3/4,并且不同机构投送的稿件有明显差别。高复制率(>50%)的稿件多为作者自引或重复发表,严格意义上的抄袭仍然只是少数;并且在重点院(校、所)多是低职位作者抄袭情况严重,而在普通院(校、所)则是高职位作者更为突出。”
  “抄袭现象泛滥也与电子文档不仅传播速度快,而且复制非常便利不无关系。在政治、法律、道德环境建设跟不上计算机与网络技术发展速度的现实情况下,用技术手段解决一些问题也是合理的逻辑。”李家永认为。
  
  检测系统遭攻克源于先天不足
  
  沈阳告诉《北京科技报》,检测系统在两个字符串进行比较时有多种模式。第一种属于绝对相似,也就是出现与其他文献一字不差的句子。针对这种情况,系统自身会设定一个起限的字符串长度,如有超过该起限的若干个连续字符跟别的文章是一模一样的,那么系统就会将其标红。
  另一种则是相对相似,如果作者在抄袭时进行词语替换,这样的比对难度就大大增加了。现有的方法中,特征词串法就是把段落中不重要的词先过滤掉,留下一些特征词串,系统会设置一个阈值,比如,在60个字符中除去那些不重要的词,特征词串超过20个相似的就被标注出来。国内外有些系统还能做一些简单的词替换的检测。
  但沈阳坦言,目前国内外的成熟技术只能做到绝对相似的检测没有误差,如果作者从直接抄袭上升到词替换、语义抄袭甚至是核心思想抄袭,这类检测还无法做到天衣无缝。
  
  使用不当会影响系统检测的准确性
  
  “目前系统的检测标准对于任何论文都是一样的,事实上,并非所有论文都是复制率越高,抄袭的可能性越大。”李家永指出,“不同学科、不同类型的学术论文的写作方法和评价体系客观上是不同的,报道研究成果的论文复制率相对较低;而综述性、评论性文章需要大量引用其他文献,必然会出现较多的文字、句子,甚至段落与他文重合。”
  他进一步解释,特别是批判性文章,开篇就要摘录一些原文内容,然后作者根据自己的知识积累,列举大量文献资料作出证明,这就涉及大量“复制”;作者得出别人的研究结论不能成立只需几句话就够了。像这样的文章即使复制率高达80%,也应该算是好文章,因为学术探讨在求真的过程中更需要去伪。
  因此,李家永强调,“抄袭必然复制,但复制不等于抄袭”,作为检测系统的主要指标,复制率对于把好稿件初审关来说很有帮助。如果图方便,机械地把检测软件的复制率作为判断论文是否抄袭或者剽窃的依据就属于使用不当。
  
  防止学术不端根本在于制度
  
  目前国内外的论文抄袭检测技术并无多大差异,其客观上提高了学者的抄袭成本,很大程度上遏制了一部分直接抄袭的行为。当然,还有一部分被测试者,可能出于审慎的目的,或是规避检测风险,从追寻系统漏洞的角度寻找应对的办法,这样一来,检测变成了一场人与计算机的博弈。
  作为国内曾经的反剽窃软件技术研发人员,沈阳认为,人脑的反应速度总是高于机器的,它可以迅速适应各种检测模式。因此,该软件的应用变成了一个漫长进化的过程,需要不断完善。
  而另一方面,沈阳也担心,随着软件技术不断被应用,其本身必然遭到更大面积的曝光,软件从一个黑盒走向了一个透明盒子,其有效性实际是在降低的。因此,检测软件只能作为辅助工具,而不能作为判别学术清白的唯一利器。
  “要从根本上杜绝抄袭、剽窃的行为,一方面通过完善学术评价体系降低学者抄袭、剽窃的需求,另一方面则是要加大抄袭之后的惩戒力度。”沈阳告诉记者,在国外防止学术不端最核心的不是技术手段,而是制度约束,抄袭、剽窃一经查实,惩处力度非常之大,这是使得大多数学者远离学术不端的最重要的原因。
  至于目前大学生热衷的自测行为,李家永则以宽容的心态来看待。他认为学生本来就需要有一个学习、模仿的过程,通过自测可以了解到自己文章的复制情况,如果以积极的心态认真自测,还可以进一步知道都有哪些人在该领域已经做了哪些工作,同时客观上也能起到自我监督的作用,对于严重抄袭的文章,如果作者自测后能够主动纠错更是一种觉悟。“关键是看自测的目的是什么。”
其他文献
据日前《华尔街日报》报道,即使关闭了定位功能,iPhone仍会存储相关数据。    小王是个旅游狂人,对他而言不可或缺的旅游“伙伴”就是iPhone手机。这是因为iPhone手机中的“地图”、“相机”、“指南针”等功能为出行提供了极大的便利。但是最近小王感到有点不安,生怕万一丢失了手机,会使自身行踪暴露。     苹果和谷歌手机同受质疑  根据摩根士丹利分析师凯蒂·休伯蒂(Katy Huberty
期刊
要想判断准确,可就要给外星人出道数学题。“因为宇宙中通用的工具就是数学。比如,我们给外星人发出一道数学题:29×31=?答案是899。我们会通过望远镜监听是否会传来899个脉冲信号。也正是利用这个规律,人类可以辨别其他星体上是否存在生命。    在2024年,我们就能更精确地监测外星人了!  目前,由中国、澳大利亚、法国、德国、意大利等全球20个国家的科学家们筹划建造的,全世界最大规模的射电望远镜
期刊
从田间地头到餐桌,每个阶段都有相应的监管部门把关,但是这种“九龙治水”的方式造成各部门之间存在监管真空。    食品添加剂行业门槛太低  对于屡屡被曝光的食品添加剂事件,如何解决成为摆在各级政府部门面前的一个难题。食品业业内人士龚先生认为,将政府职能与食品安全绑架在一起本身就不利于对食品行业的监管,他举例说,目前的政策如果有某个地方的食品行业出现问题该地区的工商部门也要承受连带责任,而这一举措只能
期刊
4月中旬,国际食品包装协会一个联合调查小组在北京的嘉禾、华星、星美、万达、东都等五家影院,购买了13种规格不同的爆米花桶。之后,他们将这些爆米花桶,放在了波长为365nm的紫外分析仪之下。  在紫外光的照射下,五种爆米花桶发出了鲜亮、刺眼的蓝光。  “这是因为制作这些桶的纸中,含有化学物质——荧光增白剂。”国际食品包装协会的秘书长董金狮说,这是不允许在食品包装纸中添加的化学物质。  4月22日,国
期刊
最近一段时期,一种新兴的网络购物模式进入消费者视野,这就是“抢投”。继“秒杀”、“团购”之后,“抢投”引发了新一轮的“热议”,捧之贬之的都大有人在。对消费者来说,抢投是实惠的网购新模式,还是诱人的“陷阱”?对网站商家而言,“抢投”是宣传的利器,还是“赔本赚吆喝”?   一位热衷于抢投的顾客徐小姐介绍,抢投就是指一件商品的价格被分为若干等份,你只需要出其中一份的钱,就会获得一个独一无二的编号,当整件
期刊
人能成为“万物之灵”,主要得益于高度发达的大脑。脑部的最外层有着弯曲褶皱的部分,叫做皮质(又称灰质),包含有140亿个以上的神经细胞,控制着人类的感知、思想、情绪和行为等。   近日,来自中科院上海生科院计算生物学所的马普青年科学家小组组长菲利普研究员带领团队通过测量不同年龄段的人、黑猩猩和恒河猴大脑和小脑皮质中上百种代谢物的含量,发现了脑部代谢物质含量的变化规律。这一研究成果能够协助科学家了解大
期刊
“普通的高等教育中,是不应该有这种体检的。这样的体检可能对一些学生存在歧视,从而影响到他们平等受教育的权利。”    最近,“脱光衣服、做一些动作”的高考体检被考生揭发,很快引起了众多考生的共鸣,甚至激起了一些高考过来人的集体声讨。被考生们称为“裸光光”的这一高考体检项目,出现在外科检查中。据了解,这是为了检查考生是否存在先天性发育不良、脊柱弯曲、手脚长短不一等情况。虽然国家在对高考体检的要求中,
期刊
辣椒为什么要进行分级?  问:在日常生活中有很多人几乎每天都吃辣椒,但是往往并不知道自己食用辣椒的辣度是多少。这给不少人带来了一些麻烦,吃了不辣的,觉得索然无味,而有时又感觉辣椒太猛。辣椒到底是如何分级的?  答:我们提出了辣椒辣度分级方法和辣椒制品产品外包装辣度标识方法,明确将辣椒的辣度分为10级,我们的辣椒分级参照了国际10级分级的标准,但是在分类上结合中国的实际有所不同。目前国际上辣椒共有微
期刊
随着知识经济的不断发展和全球化进程的不断深化,跨国技术转移现已成为促进世界经济发展的重要手段之一。特别是对于我国这样的新兴工业化国家来说,跨国技术转移对国家发展尤其重要。    在北京日前举行的“2011跨国技术转移北京论坛”上,众多国内外的专家学者、企业总裁及技术转移机构负责人共聚一堂,就当前形势下,跨国技术转移与发展方式转变、政府促进跨国技术转移的举措及促进跨国技术转移的有效方式等主题展开深入
期刊
“如果有人用‘蹭网+虚拟机’的方式在网上侵权,基本上没有找到的可能。”  “如果在匿名的情况下,起诉IP、网名听起来都很好,但用的过程中会有一些困难。由于目前不是实名制,一旦有人伪造了信息来源,就会陷入‘说不清道不明’的尴尬境地。”    一串被三个圆点切成四段的数字、一个梦幻撩人的名字,这在很多网民的眼中就是一个不为人知的自己。几天前,江西省出台的一项法规却将隐藏在IP地址和网名背后的人们,推到
期刊