基于对比学习的动态网页用户评论获取方法

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:quchaolove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着Web 2.0相关技术的发展,传统爬虫无法适于动态网页中用户评论的获取.主要工作包括:1)分析了动态网页用户评论的挑战;2)设计了一种新的用户评论获取方法ReviewCrawler,ReviewCrawler根据网页的DOM树,利用对比学习思想挖掘包含用户评论的节点,并在获取评论中学习新特征词;3)利用真实商品评论验证了ReviewCrawler准确性、有效性,实验表明ReviewCrawler的查全率及查准率大于98%.同时ReviewCrawler具有良好的伸缩性,能够满足获取海量用户评论的要求.
其他文献
  针对查询自动补全在传统的关键词检索系统得到了广泛的研究,但空间关键词检索并未得到足够的重视这一特点,本文提出一种基于日志项在线聚合的空间关键词检索的查询自动补全
  随着信息管理内容的不断扩展,出现了丰富多样的数据模型,而针对不同类型数据库的自然语言处理也是数据库管理中亟待解决的问题。因此提出了一种适用于信息网数据库系统的中
会议
  MapReduce是一种应用广泛的并行编程模型,Hadoop是MapReduce的开源实现。为了满足不同类型的MapReduce作业对任务分配策略的特殊需求,在深入分析Hadoop固有任务分配机制
  在一个字符串集合中,通过一些字符串的相似性函数寻找与查询字符串相似的字符串集合被称为字符串的近似查找。这种查找常应用于数据库、信息检索等各个领域。但是在某些特
直流微电网故障的快速检测与切除是提高其运行可靠性的关键.电流差动保护可快速有选择地切除故障,但受短路阻抗影响较大,在高阻抗短路时可能拒动.针对环形直流微电网,文中提
  由多核CPU和GPU构成的异构计算平台已经成为当前高性能计算的重要发展方向,为充分发掘异构计算平台的潜力,有效提升列数据库查询的性能,首先提出了一套列数据库查询的原语集
会议
  实时OLAP对数据装载与更新、查询分析性能等方面具有更高的敏感性,面向DBMS的数据ETL和复杂SQL查询,提出了一种轻量级并行处理方法,即通过并行ETL过程将大规模、高维度事实
会议
针对多光伏直流配电网系统在不同应用场景下存在的功率波动,文中提出了一种基于离散一致性算法的分布式多光伏协调控制策略.首先,相邻光伏控制器之间可以进行功率偏差和运行
  高效且准确地找出存在于深网中的与用户查询意图最相关的Top-N元组,是深网数据集成中的关键问题。针对数据源内容概括未见成果的现状,本文提出了一种能够有效概括非数字、
点状网络具有高供电可靠性且有利于分布式能源消纳的特点,但现有结构及其控制与保护方法限制了其进一步发展.文中基于点状网络多源并供优势与交直流混联思想的结合,提出了交