基于T-Graph算法的主题爬虫研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:yingxiong324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决传统主题爬虫抓取特定领域的网页信息效率低下问题,在分析主题爬虫算法T-Graph的基础上,提出一种改进的T-Graph主题爬虫算法.利用维基百科的相关知识,采用语义分析的特征项提取算法提取特征项,在词的语义层次上对文本进行相似度计算,且综合考虑了网页中不同位置文本的权重问题.将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法效果更好.
其他文献
云计算中对外包数据加密给数据查询带来挑战,为提高数据的安全性和查询的准确率,克服现有加密算法本身存在的一些弱点,把外包数据进行分割,对分割变换后的数据进行加密,再外包给云
文章对音乐视觉化概念进行论述,剖析在新媒体大环境下,音乐视觉化更为丰富的传播方式、更为广泛的传播范围及其产生的深远影响。音乐视觉化丰富了音乐的内涵,使人们能够更加深刻
为满足加密文件的多关键字检索需求并解决云存储模式下文件频繁更新导致用户重构安全索引的问题,提出增量式多关键字可搜索加密算法。基于新型的多元素随机布隆过滤器,使用户提
随着我国不断深化建筑施工现场管理,保证建筑工程质量的一项重要措施就是细化施工管理工作,明确建筑施工管理职责。本文首先分析了建筑施工管理的基本规律,并对当前建筑施工管理
充分考虑记录之间的距离以及记录本身权重值对聚类种子选择的影响,建立聚类种子选取模型,以获得更好的聚类结果。提出基于改进变长聚类的多敏感属性概率κ-匿名算法,以提高数据可
以高职工商管理专业为例,通过重构管理信患系统课程培养目标,基于职业能力导向结合ERP软硬件教学平台设计教学内容,运用行动导向教学方法培养学生实际工作能力。这对高职工商管
文章立足于艺术设计教育的职业特征,从艺术设计的概念与特征出发,阐述了艺术设计职业特征在教学过程中的表现,论证和分析了体现艺术设计教育职业化的保障条件。
全国软件分析测试与演化学术会议(会议编号:CCF-TC-16-04G)是由中国计算机学会(CCF)主办,CCF软件工程专委会、系统软件专委、信息系统专委联合承办的软件分析、