一种基于节点密度分割和标签传播的Web页面挖掘方法

来源 :2012中国计算机大会 | 被引量 : 0次 | 上传用户:jwh777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  获取Web页面中的重要内容如文本和链接,在许多Web研究领域有着重要的应用价值。目前针该问题主要采用Web页面分割和区块识别的方法。但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法割裂了Web页面中本文和链接的内在语义关系,同时降低了页面处理的效率。本文提出了一种Web页面重要内容挖掘的统一框架,该框架主要由三个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为丌同的页面块。第二,采用基于标签传播的半监督方法自动扩展页面块训练集。第三,在扩展的页面块训练集上对SVM分类器进行训练。最后利用已训练的SVM分类器对页面块进行分类。采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局。我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性。
其他文献
  网络虚拟化技术是推动下一代互联网渐进式发展的关键技术,构建大规模的虚拟网络创新环境对于促进新型网络体系结构的研究与部署、解决互联网面临的僵化问题具有重要意义。
会议
  数据密集型应用中的核心循环消耗了程序的大量执行时间.如何实现核心循环在粗粒度可重构体系结构(CGRA)上的有效映射仍是当前研究领域的难点.为了在CGRA上最大程度开发应
会议
由于我国经济的持续平稳增长,民众对生活水平有了更高要求。绿色健康食品得到了全社会的广泛关注,绿色发展也由此成为农业生产的一个重点所在。本文把绿色水稻种植当成分析关注
随着农村经济的可持续发展,农业机械的使用率越来越高。农业机械的使用能够有效地提高农业发展的速度,保证农业生产质量和效率。现阶段,农业机械已广泛应用于农业生产,农业机械现
作者将健康2月龄婴儿538人,随机分为两组,两组婴儿均于2、4、18月龄接种DTP。6月龄时,A组接种DTP,B组接种安慰剂(生理盐水)。全程共用DTP 1553剂,安慰剂218剂。副反应分为局
  复杂的网络环境下存在的随机性、模糊性和不可预测性等不确定性因素给网络交易带来了诸多安全问题,而在网络交易中,信任是交易能够顺利进行的前提和关键。本文以复杂的网络
会议
小麦是主要的粮食作物,小麦种植技术的发展一直受到人们的密切关注,目前,小麦种植技术的应用与推广仍旧存在一些问题,本文分析了小麦种植技术的推广对策,以期对小麦种植的发展有所
  HTML5是目前富互联网应用(RIA)中最重要的技术之一,由于得到了业界厂商的大力支持,发展迅速,已经成为未来Web应用发展的事实标准。新技术的引用,在给用户提供丰富多彩互联网
会议
笔者从1988年1月至1990年12月对1275例人流后置环和1246例月经后置环的育龄妇女进行了避孕效果(脱环率和带环受孕率)的观察,结果表明人流后置环的脱环率6.4%(81/1275)低于月
龙川县上坪区是我省严重缺碘区,人群地甲病患病率为29.7%,于1984年开始供碘盐防治地甲病,五年来,地甲病患病率降为3.78%。为了解服用碘盐后对学生健康水平的影响,我们于1989年