论文部分内容阅读
近些年来,由于Web2.0等技术的高速发展及广泛的应用,越来越多的互动式新闻网站(如新浪新闻、头条等),互动式电子商务网站(如大众点评、汽车之家等),及互动式企业信用查询系统(如企查查等)不断涌现。这不仅给用户获取各类社会事件、企业信息和产品信息提供了便利,也使得人们有渠道可以在互联网上通过回复评论来各抒己见。通常,网络评论信息包含了互联网用户对某社会事件、企业或产品的看法和喜恶,是有关部门或公司了解社会舆情从而积极应对的重要依据。然而,在大数据时代,这些评论信息动辄以亿万记,且质量层次不齐、用语短小随意,这不仅对自动采集的要求较高,而且也加大了从中分析获取有效舆情的难度;另外,对多数据源中同一实体的评论数据进行融合,可以解决单数据源数据稀疏的问题,但是,由于数据缺失等原因,往往指向同一实体的记录会被认为是不同的实体,加大了评论数据整合的难度。针对以上问题,本文研究网络爬虫、数据融合和文本情感分析的相关技术和方法,并实现了面向Web舆情评价信息的采集与分析系统。相关网络爬虫技术可以较好地从互联网各类型网站中获取相关评价内容,并实现多数据源间的实体匹配,整合评论数据,从而做出细粒度的舆情分析。具体来说,本文的主要内容包括以下几个方面:(1)在数据采集方面:设计并实现了定制化的多线程网络爬虫框架,能够定向、快速、高效地收集相应的目标数据并存储至数据库,为之后的数据分析提供数据基础。(2)多数据源间进行实体匹配,从而整合评论数据,避免数据稀疏问题。(3)研究和分析了情感分析的相关技术与方法。设计了Web舆情评价信息分析框架,对网络评论进行细粒度情感分析来识别特征属性及评价语。(4)可视化展示。用户通过查询接口可以获取评论摘要信息及产品整体概况。