论文部分内容阅读
随着互联网技术的普及和发展及web2.0的日益盛行,网络上面越来越多的信息是由用户来提供的,同时人们也越来越多地从网络上获取有用的信息。在这种情况下,网络信息提供者对于读者来说具有重要的作用:一方面他们的言论影响着读者的思考和对事物的认识,另一方面,他们提供的有用信息也成为读者获取新闻等信息的重要来源。而针对网络信息鱼龙混杂的情况,如何从中筛选出有意义的信息则是一个很重要的研究问题。
Blog,即博客,又称为网络日志,部落格等,是一种通常由个人管理,不定期张贴新的文章的网站。许多博客专注在特定的课题上提供评论或者新闻,其他则被用于个人日常生活的记录,因而博客已经成为一个重要的网络用户表达思想和讨论交流的工具。在现有的针对博客的排序研究中,由于网站与网站之间能够提供的信息和接口的数据不同,格式多样,所以很难利用统一的辅助信息(比如用户评论,rss数目,关注人数等)将博客进行统一的排序,同时,与普通的网页排序不同的是,博客之间缺少传统网页排序之间的超链接关系,所以现有的基于链接权值的排序算法很难直接应用到博客排序中。本文从博客文章本身出发,通过深入分析博客文章之间的文本特性,利用逻辑回归模型及图模型理论,构建出博客之间的隐藏链接关系,并利用此关系,来对博客进行排序,从而达到筛选出高质量的,对新闻时事敏感度高的博客站点。
本文基于ICWSM提供的Blog数据,开发了基于图模型的博客排序的系统,并对系统进行了相应的实验比较,通过自动新闻热点匹配的方式来说明我们的方法要优于现有的针对博客排序的方法。同时,我们的方法直接从文本内容入手,所以一定程度上解决了新产生的网页没有链入链接的问题。为进一步的对于网络信息传播的研究和blog post之间的内在信息联系提供了理论基础。