网络舆情收集与分析系统的研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:csrsyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代,由于互联网的飞速发展,网络已经成为传播信息的主要载体之一。由于网络本身的虚拟性、随意性和渗透性,决定了网络舆情具有传播速度快、波及范围广、影响程度深的特点。不论政府部门还是企事业单位,都应该实时掌握舆情信息,监测舆情发展动态以便及时做出有效的响应。对网络舆情信息的收集与分析已经成为当下研究的热点。   本文在分析通用的搜索引擎和元搜索引擎的基础上,结合网络舆情信息的特点,最终采用元搜索引擎实现系统收集信息功能。论文研究了热点发现中采用的文本聚类策略,在研究K-means在文本聚类算法基础上,鉴于该算法因随机指定初始聚类中心导致局部收敛的聚类效果,提出了一种指定初始聚类中心的算法。该算法基于文挡标题能够表达文档主题的思想,提高了聚类结果的准确性,并应用于该系统,有效发现网络热点问题。话题追踪模块讨论了文本分类技术,并最终采用KNN分类方法实现该功能。在理论研究的基础上,本文设计并实现了网络舆情收集与分析系统,最后本文通过采用与权威网站数据比较的方法,对该系统的收集信息和发现热点的能力进行了测试,结果表明系统能够满足对信息收集和分析的要求。
其他文献
智能电网是电力工业的一场巨大变革,将引起电力工业在各个领域的革新。智能调度是建设统一坚强智能电网的关键内容和智能输电网的神经中枢。基于SOA的电网调度支撑平台是智能
来自中国互联网信息中心的数据称,互联网数字分配机构地址池中的 IPv4地址已经分配完毕。可见当今互联网的发展已经达到鼎盛时期。而现在的中国的互联网更是爆炸式发展,中国
SIP因简单、易用等优点成为下一代网络的核心信令控制协议,因此基于SIP的服务和产品大量涌现。由于SIP所处的开放、复杂的网络环境和协议自身缺乏安全机制,导致SIP服务和产品面
随着新型遥感数据应用的日益广泛和深入,快速而准确的提取信息已成为制约遥感应用的瓶颈,对遥感图像进行分割已成为解决这个问题的重要手段之一。基于图论的图像分割方法能够
随着移动互联网技术的发展和移动终端的不断普及,文字识别技术蓬勃发展且日趋成熟。手写输入作为移动平台上的一种高效文字录入方式,被越来越多的使用者所接受。近三十年来,
近年来通信技术、存储技术及处理器技术发展迅速,通信方式已发展成为视频音频通信方式,人们对图像质量的要求也日益升高。H.264视频编解码标准是新一代视频压缩编码国际标准,
近年来,社交网站得到了越来越多的关注,一大批社交网站如Renren、Facebook等快速崛起,这些互联网社交网站拥有庞大且日益增长的用户社群,围绕用户积累了大量的社会性数据。对
多Agent系统,正朝着大规模、开放的、动态的和分布式结构的方向发展,在系统中拥有大量自私的 Agent,与其它 Agent交互时提供虚假信息或劣质服务来获得自己最大化利益。在任何
数学和逻辑中把一个公式中的某个子项替换成另一个子项的操作过程就是项重写。项重写系统的理论是计算的基础理论。本文属于项重写技术在形式化方法领域的应用研究。主要贡献
工程进度管理是现代企业管理中一个必不可缺的重要组成部分,是保证工程项目按期完成,合理安排资源供应,节约工程成本的重要措施。企业的工程进度管理要求在既定的工期内,编制