论文部分内容阅读
摘要: 在计算机日益发达的今天,网络文学也不断发展,但这同时带来盗文这一严重的问题。在对已有的防盗文措施进行调查后发现,目前并没有一个切实可行的措施来规范网络阅读。因此,介绍一种方法,通过改变一些同义词、空格数、标点符号等来提取盗文者的基本信息,并对其进行严惩,从而达到从根本上遏制盗文猖獗的目的。
关键词: 网络文学;盗窃;规范网络
中图分类号:H319. 9 文献标识码:A 文章编号:1671-7597(2011)0920187-01
1 背景及现状
1.1 背景
随着科学技术的不断发展,计算机在我们日常生活中扮演了越来越重要的角色,很多写手也把网络作为了检验自己能力的试金石,在创作新的小说的时候往往先把文章发在网络上,通过大家的点击率和评论来决定自己下一步的行动方向。
在这个背景下,小说阅读网站这几年一直处于一种蓬勃发展的状态,比如晋江文学城,潇湘书院等就是小说爱好者的必去之处。
但是,网络在带给我们便捷的同时,也带来了一些问题,盗文就是这其中重要的一部分。由于作品是第一时间被发布在的网上,作者的权益往往得不到保障,读者只需要简单的复制粘帖就可以在未经作者授权的情况下把文章发布出去。这同时也会损害作者和网站的经济利益。
在这一方面,各网站也都采取了些必要的措施,比如百度贴吧里的月莲吧甚至发表了“关于近日盗文现象以及无爱类贴吧的问题/盗文举报专贴”类似的帖子,但都收效甚微。所以我们要采取一种强制性的方法来对抗盗文,能够有效的查找出究竟文章是被哪个正规的读者擅自传出,并采取一定的惩罚措施,这样就会在更大程度上遏制盗文的猖獗。
1.2 现状
目前大多数的盗文分以下几步:
1)在文学网上注册成为正式会员。
2)进行一定价值的充值。
3)购买热门小说。
4)采取各种各样的方式把热门小说贴到其他网站。
5)让更多的人免费阅读,更有甚者收取一定的金钱,从而损害了小说原作者以及首发网站的利益。
为了抵制盗文,现在有许多防盗方法,例如加入复杂水印,图片字等,她们的目的都是防止盗文的发生,提高读者盗文的难度。
例如著名的原创小说网络晋江文学城就是采用的水印方式:[1]
但由于互联网技术的发展,特别是网络小说是依靠网络作为载体的,盗文现象可谓是防不胜防。例如水印很容易就可以被消除,图片字有可能导致盗文有很多缺字的现象,但也可以花一些功夫消除。而且,从根本上阻止盗文现象的发生还是要从惩罚手段上入手。许多盗文就算被发现了,被删除了,盗文者还会再次盗文,而不会经受任何惩罚,因为网站根本不知道是哪位合法读者复制了小说。
2 想法
由此想到了,如果发明一种技术,可以从盗文中(包括普通的txt,word等等)提取出合法读者的用户名,就可以查出是谁非法盗取了小说,由此,网站就可以采取一系列惩罚措施,例如:扣除一定的网络币,甚至封锁此用户名。一旦有了严厉的惩罚措施盗文者就会有所顾忌,盗文现象也会从根本上得到遏制。
那么,如何有效的提取读者信息并且同时要保证这些信息在文章传播的过程中不被去掉呢?最直接的回答就是文章本身。并且我们的想法是针对小说的,尤其是长篇小说,可不可以寻找一种方式把水印嵌入在内容中呢?
我们知道,网络小说大多比较长,正常情况下一篇收费的网络小说大多在20万字以上,在这20万字中改变一些地方往往不会引起读者的注意,也并不会引起歧义。由此我们想到可以通过改变一些同义词、空格数、标点符号等来辨别不同的用户看到的小说。
简单点来说就是,通过我们的技术,把每一个读者的用户名嵌入在他看到的小说中,也就是说每一名用户看到的小说会有些许细微的差别,而我们就通过盗文中这些细微的区别揪出盗文者,采取惩罚。盗文不知道自己的水印是什么,所以也就根本无法消除水印。
那么如何在小说内容上嵌入水印呢?如何将用户名与水印对应起来呢?
由此想到了两种方法,一种方法是采用一定的算法,直接嵌入,拿到盗文后直接解码。另一种是利用数据库,将水印与用户名一一对应,存储在数据库中。
相比两种方法,第二种方法需要的资源太多,而第一种方法的算法设计有很大的难度。
所以本文采用了一个实验算法,虽然这个算法很简单,也有一些限制条件,比如嵌入水印位置及用户名数量的限制等,但考虑这只是一个实验算法,所以还是可以起到一个抛砖引玉的效果。
3 算法
3.1 具体步骤
1)将用户名转换成二进制数序列W1(规定不超过六位)。
2)选取用户名的二进制低三位的十进制值加一作为X,高三位的十进制值加一作为Y。
3)取文本中的第X个空格。
4)在第X个空格后再插入Y个空格。
5)嵌入水印完成。
6)解码时,从第一个空格开始计数i,遇到第一个后面有空格的空格开始停止计数I,开始计数j,直到第一个非空格开始停止计数j。
7)将i-1,j-1分别转换为三位二进制,设Z为六位二进制数,j作为Z高三位,i作为Z第三位。
8)将Z转化为十进制,即为用户名。
3.2 举例
假设某一个电子图书会员的注册用户名为:33
该会员获取一篇受版权保护的文档,内容为:I am a student,my name is Lihua,I come from China.
算法对其操作的过程:
1)将它转化为二进制:010001。
2)低三位是1,加一后成为2,高三位是2,加一后成为3。
3)所以确定在第二个空格后再插入三个空格。
4)加入水印后的文档为:I am a student,my name is Lihua,I come from China.
5)解密的时候,首先,从第一个空格开始从1计数i为2,到第一次出现连续空格开始停止计数i,开始从1计数j为3。
6)将i-1转化成二进制作为二进制数Z的低三位,j-1同样转化成二进制作为Z的高三位。
7)解密出的Z010001转化成十进制33即为用户名。
4 技术或应用的定义
本创意使用了数字水印的技术——利用文件名的唯一性来标志文本的唯一性。使用将不同的文件名转换为在不同的空格序位上插入不同的空格的加密方法,以及文本转换前提下的空格计数的解密方法,将文件进行内容零误差的转换。通过巧妙合理的安排算法,可以使信息提取后的效果更加好。嵌入的信息也可以更加丰富,更加分散,甚至做到一般人不会觉察的效果,更加保障了水印的隐蔽性。随着网络文学这一新兴媒体的崛起,盗文现象也变得十分猖獗,未经授权随意的转载,给各大网络运营商以及作者等都带来了极大的损失。而数字水印就可以有效的起到泄文追踪的作用,保障了广大读者、作者、运营商的利益。本加密技术极具健壮性,不会通过因为转载而破坏加密效果的。并且通过解密插入水印后的作品,即可方便的追踪到原始的泄密者的用户名。据此,相关平台即可采取相应的措施来弥补损失。
5 创新点总结
传统的加密技术或多或少都会影响文本的阅读效果,而且对于被盗文件也不能追查出到底初始盗文者是谁。因此,虽然嵌入了水印,使得盗文的效果大打折扣,但却无法采取什么实质性追究措施,只能处于被动低位。而本技术的创新就在于,除了只是嵌入少量空格使得对视觉的效果影响微乎其微之外,还可以轻松做到初始盗文者的追踪调查。这样一来就可以采取相应的措施,做到实质上的弥补了损失,降低潜在隐患率。
6 未来工作
回顾整个研究过程,对于盗文者的高技术和各种手段来说,还有许多地方需要改进。比如:
1)如何能够让嵌入的读者信息更具体,毕竟,更具体的读者信息能够成为更有力的证据,从而减少了不必要的误解和麻烦。而且用户名的长度和复杂度间接决定了可容纳的用户数量的多少。
2)如何更安全的嵌入用户信息,毕竟在单独的一个位置嵌入单独的一个用户信息是很脆弱的,嵌入的水印很容易遭到破坏。
3)如何让嵌入的水印信息对文本造成的视觉影响更少,这涉及到文章的美观,而且隐蔽的水印更不容易被察觉和修改。
所以,在接下来的研究中,将集中解决这几个问题,让研究更加趋向完善。使我们的系统更加强壮,能够更精确的为用户实际服务。
参考文献:
[1]http://www.jjwxc.net/onebook.php?novelid=84758&chapterid=2《花容天下》.
[2]王炳锡编著,数字水印技术,technology of digital watermarking.
[3]金聪编著,数字水印理论与技术,清华大学出版社.
作者简介:
白洁(1990-),女,河北省石家庄人,本科在读,研究方向:信息安全。
关键词: 网络文学;盗窃;规范网络
中图分类号:H319. 9 文献标识码:A 文章编号:1671-7597(2011)0920187-01
1 背景及现状
1.1 背景
随着科学技术的不断发展,计算机在我们日常生活中扮演了越来越重要的角色,很多写手也把网络作为了检验自己能力的试金石,在创作新的小说的时候往往先把文章发在网络上,通过大家的点击率和评论来决定自己下一步的行动方向。
在这个背景下,小说阅读网站这几年一直处于一种蓬勃发展的状态,比如晋江文学城,潇湘书院等就是小说爱好者的必去之处。
但是,网络在带给我们便捷的同时,也带来了一些问题,盗文就是这其中重要的一部分。由于作品是第一时间被发布在的网上,作者的权益往往得不到保障,读者只需要简单的复制粘帖就可以在未经作者授权的情况下把文章发布出去。这同时也会损害作者和网站的经济利益。
在这一方面,各网站也都采取了些必要的措施,比如百度贴吧里的月莲吧甚至发表了“关于近日盗文现象以及无爱类贴吧的问题/盗文举报专贴”类似的帖子,但都收效甚微。所以我们要采取一种强制性的方法来对抗盗文,能够有效的查找出究竟文章是被哪个正规的读者擅自传出,并采取一定的惩罚措施,这样就会在更大程度上遏制盗文的猖獗。
1.2 现状
目前大多数的盗文分以下几步:
1)在文学网上注册成为正式会员。
2)进行一定价值的充值。
3)购买热门小说。
4)采取各种各样的方式把热门小说贴到其他网站。
5)让更多的人免费阅读,更有甚者收取一定的金钱,从而损害了小说原作者以及首发网站的利益。
为了抵制盗文,现在有许多防盗方法,例如加入复杂水印,图片字等,她们的目的都是防止盗文的发生,提高读者盗文的难度。
例如著名的原创小说网络晋江文学城就是采用的水印方式:[1]
但由于互联网技术的发展,特别是网络小说是依靠网络作为载体的,盗文现象可谓是防不胜防。例如水印很容易就可以被消除,图片字有可能导致盗文有很多缺字的现象,但也可以花一些功夫消除。而且,从根本上阻止盗文现象的发生还是要从惩罚手段上入手。许多盗文就算被发现了,被删除了,盗文者还会再次盗文,而不会经受任何惩罚,因为网站根本不知道是哪位合法读者复制了小说。
2 想法
由此想到了,如果发明一种技术,可以从盗文中(包括普通的txt,word等等)提取出合法读者的用户名,就可以查出是谁非法盗取了小说,由此,网站就可以采取一系列惩罚措施,例如:扣除一定的网络币,甚至封锁此用户名。一旦有了严厉的惩罚措施盗文者就会有所顾忌,盗文现象也会从根本上得到遏制。
那么,如何有效的提取读者信息并且同时要保证这些信息在文章传播的过程中不被去掉呢?最直接的回答就是文章本身。并且我们的想法是针对小说的,尤其是长篇小说,可不可以寻找一种方式把水印嵌入在内容中呢?
我们知道,网络小说大多比较长,正常情况下一篇收费的网络小说大多在20万字以上,在这20万字中改变一些地方往往不会引起读者的注意,也并不会引起歧义。由此我们想到可以通过改变一些同义词、空格数、标点符号等来辨别不同的用户看到的小说。
简单点来说就是,通过我们的技术,把每一个读者的用户名嵌入在他看到的小说中,也就是说每一名用户看到的小说会有些许细微的差别,而我们就通过盗文中这些细微的区别揪出盗文者,采取惩罚。盗文不知道自己的水印是什么,所以也就根本无法消除水印。
那么如何在小说内容上嵌入水印呢?如何将用户名与水印对应起来呢?
由此想到了两种方法,一种方法是采用一定的算法,直接嵌入,拿到盗文后直接解码。另一种是利用数据库,将水印与用户名一一对应,存储在数据库中。
相比两种方法,第二种方法需要的资源太多,而第一种方法的算法设计有很大的难度。
所以本文采用了一个实验算法,虽然这个算法很简单,也有一些限制条件,比如嵌入水印位置及用户名数量的限制等,但考虑这只是一个实验算法,所以还是可以起到一个抛砖引玉的效果。
3 算法
3.1 具体步骤
1)将用户名转换成二进制数序列W1(规定不超过六位)。
2)选取用户名的二进制低三位的十进制值加一作为X,高三位的十进制值加一作为Y。
3)取文本中的第X个空格。
4)在第X个空格后再插入Y个空格。
5)嵌入水印完成。
6)解码时,从第一个空格开始计数i,遇到第一个后面有空格的空格开始停止计数I,开始计数j,直到第一个非空格开始停止计数j。
7)将i-1,j-1分别转换为三位二进制,设Z为六位二进制数,j作为Z高三位,i作为Z第三位。
8)将Z转化为十进制,即为用户名。
3.2 举例
假设某一个电子图书会员的注册用户名为:33
该会员获取一篇受版权保护的文档,内容为:I am a student,my name is Lihua,I come from China.
算法对其操作的过程:
1)将它转化为二进制:010001。
2)低三位是1,加一后成为2,高三位是2,加一后成为3。
3)所以确定在第二个空格后再插入三个空格。
4)加入水印后的文档为:I am a student,my name is Lihua,I come from China.
5)解密的时候,首先,从第一个空格开始从1计数i为2,到第一次出现连续空格开始停止计数i,开始从1计数j为3。
6)将i-1转化成二进制作为二进制数Z的低三位,j-1同样转化成二进制作为Z的高三位。
7)解密出的Z010001转化成十进制33即为用户名。
4 技术或应用的定义
本创意使用了数字水印的技术——利用文件名的唯一性来标志文本的唯一性。使用将不同的文件名转换为在不同的空格序位上插入不同的空格的加密方法,以及文本转换前提下的空格计数的解密方法,将文件进行内容零误差的转换。通过巧妙合理的安排算法,可以使信息提取后的效果更加好。嵌入的信息也可以更加丰富,更加分散,甚至做到一般人不会觉察的效果,更加保障了水印的隐蔽性。随着网络文学这一新兴媒体的崛起,盗文现象也变得十分猖獗,未经授权随意的转载,给各大网络运营商以及作者等都带来了极大的损失。而数字水印就可以有效的起到泄文追踪的作用,保障了广大读者、作者、运营商的利益。本加密技术极具健壮性,不会通过因为转载而破坏加密效果的。并且通过解密插入水印后的作品,即可方便的追踪到原始的泄密者的用户名。据此,相关平台即可采取相应的措施来弥补损失。
5 创新点总结
传统的加密技术或多或少都会影响文本的阅读效果,而且对于被盗文件也不能追查出到底初始盗文者是谁。因此,虽然嵌入了水印,使得盗文的效果大打折扣,但却无法采取什么实质性追究措施,只能处于被动低位。而本技术的创新就在于,除了只是嵌入少量空格使得对视觉的效果影响微乎其微之外,还可以轻松做到初始盗文者的追踪调查。这样一来就可以采取相应的措施,做到实质上的弥补了损失,降低潜在隐患率。
6 未来工作
回顾整个研究过程,对于盗文者的高技术和各种手段来说,还有许多地方需要改进。比如:
1)如何能够让嵌入的读者信息更具体,毕竟,更具体的读者信息能够成为更有力的证据,从而减少了不必要的误解和麻烦。而且用户名的长度和复杂度间接决定了可容纳的用户数量的多少。
2)如何更安全的嵌入用户信息,毕竟在单独的一个位置嵌入单独的一个用户信息是很脆弱的,嵌入的水印很容易遭到破坏。
3)如何让嵌入的水印信息对文本造成的视觉影响更少,这涉及到文章的美观,而且隐蔽的水印更不容易被察觉和修改。
所以,在接下来的研究中,将集中解决这几个问题,让研究更加趋向完善。使我们的系统更加强壮,能够更精确的为用户实际服务。
参考文献:
[1]http://www.jjwxc.net/onebook.php?novelid=84758&chapterid=2《花容天下》.
[2]王炳锡编著,数字水印技术,technology of digital watermarking.
[3]金聪编著,数字水印理论与技术,清华大学出版社.
作者简介:
白洁(1990-),女,河北省石家庄人,本科在读,研究方向:信息安全。