Nave Bayes分类器制导的专业网页爬取算法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:liuliea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。
其他文献
目的对褐黄血蜱Hf05基因进行克隆及表达分析。方法基于褐黄血蜱中肠转录组文库中的Contig16575序列设计引物,RACE法扩增Hf05 cDNA全长,利用生物信息学软件进行分析;利用qRT-P
目的:探讨经皮椎体成形术(PVP)与椎体放疗治疗脊柱转移瘤的临床镇痛疗效。方法:将24例恶性肿瘤椎体骨转移(胸椎单病灶、溶骨型)患者分为两组:放疗组12例;手术组12例,手术组采用经
随着教育事业的不断发展,我国教学体制发生了重大的变革,体育教学方法也随之不断完善改进,研究创新。近年来,我国承办的体育赛事逐渐增多,啦啦操运动开始在国内盛行,学校积极
从2004年哈尔滨工业大学硕士研究生入学考试试题中的一道题目入手,分别利用柯西准则,有限覆盖定理,一致收敛的定义对其给出了三种证明方法.并以此为基础,揭示了几类典型题目
本论文通过使用多种体系(如两种不同电极材料、可逆电对与不可逆电对偶合、可逆电对与可逆电对偶合)来构建流动注射不可逆双安培体系;并对方法的分析应用进行了研究。具体内容如
在数学分析和高等数学的教材中都用泰勒公式证明二元函数存在极值的充分条件,很复杂。本文不使用泰勒公式,给出该条件一个简单、易懂的证明方法。
近年来我国物流业发展迅速,但是在发展过程中也存在着一些问题,主要表现为面对激烈的市场竞争,如何不断提高企业竞争力问题。要提高竞争力首先要进行详细的分析,本论文首先分
由于聚合物电解质在制备高能密度全固态电池、光电化学器件、气体传感器方面有着重要的应用前景,因此,聚合物电解质成为当今研究的热点之一。 本文主要以PEG/LiC104固体聚合
分类教学法是指以一定的标准对学生进行类型的划分,实施具有针对性的教学的方法。在初中语文作文教学中应用分类教学法,能够在短时间内使学生的作文能力得到提高。本文意在研