【摘 要】
:
目前搜索引擎已经成为网民获取信息的主要渠道,但是搜索引擎中存在一些垃圾网页。这些垃圾网页不仅浪费了搜索引擎的资源,也影响了网民的搜索体验。垃圾网页具有以下特征:网
论文部分内容阅读
目前搜索引擎已经成为网民获取信息的主要渠道,但是搜索引擎中存在一些垃圾网页。这些垃圾网页不仅浪费了搜索引擎的资源,也影响了网民的搜索体验。垃圾网页具有以下特征:网页中存在大量的无关跳转链接;网页内容杂乱无序,不能提供有用的信息;存在SEO作弊。目前的研究主要是利用自然语言处理和机器学习的方法进行垃圾网页的判别。语义分析需要预先建立庞大的语料库和繁琐的标注工作,机器学习的方法同样需要预先进行自然语言的处理。自然语言处理耗时比较长、处理难度较大。本研究的目的建立一系列指标来描述一个网页,根据这些指标利用统计判别方法进行垃圾网页的识别,避免自然语言处理和机器学习的麻烦。本研究从网页整体维度、文本维度和链接维度三个方面分别建立一套指标来描述一个网页,使用fisher判别法、logistic回归和贝叶斯判别三种常用的统计判别方法进行指标体系判别效果的分析验证,根据判别的有效性和准确性来进行指标合理性的验证。为了验证利用统计方法进行垃圾网页的判别具有可操作性,本研究在采用计算机自动进行网页的解析工作,利用中文分词技术对网页文本进行分词处理,然后统计出各个指标的数值。
其他文献
大众卫生报是1981年8月创刊的,它面向农村,面向农户,坚持为农民服务为主,并兼顾其他。广大农民非常欢迎这张卫生科普小报。到6月止,大众卫生报发行量已达18万多份。临澧县楠
各大高校掀起信息化的浪潮,高校档案管理系统也面临着一场新的改革.高校档案管理系统孤立存管机制合理嵌入OA系统并提供决策支持,是高校档案系统改进的重要方向.
1982年11月26日和12月13日,羊城晚报、人民日报分别发表署名文章,对一些报刊宣传绍兴的“农民红学家”胡世庆一事提出了批评。为弄清真相,浙江日报和浙江《经济生活报》派出
为确保生产的持续进行,储备一定数量的备件是必要的,但是如果储备量过大,一方面将占用大量的流动资金,增加无效的仓储面积和保管费用,从而产生巨额的资金占用成本;另一方面,
1983年第8期《人民文学》,发表了李钊的报告文学《巴山夜话——雪山深谷访罗中立》。不久,文中主人公、画家罗中立写信给《人民文学》,批评李钊的报告文学中带有编造成分,不
实行市管县新体制后,如何适应这一新的形势?无锡日报经过一年多的实践,认为要适应加强城市对农村的领导,加强工农结合,促进城乡生产共同发展的需要,必须树立城乡一体化的观
互联网金融是指利用互联网技术和信息通信技术,互联网企业与传统金融机构实现投资、支付、资金融通和信息中介服务的新型金融业务模式.互联网金融基于“互联网+”时代快速发
近些年,我国边检站的运营模式、服务质量、服务效率等取得了长足的进步,其与国际同类部门之间的业务水平差距越来越小。但是,因为我国边检站服务最初是由边防军队所承担,所以,目前