基于图模型的博客排序系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：azhu0919

【摘要】

：

随着互联网技术的普及和发展及web2.0的日益盛行，网络上面越来越多的信息是由用户来提供的，同时人们也越来越多地从网络上获取有用的信息。在这种情况下，网络信息提供者对于读者

【作者】

：

于航

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2011年期

【关键词】

：

博客图模型互联网技术排序系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的普及和发展及web2.0的日益盛行，网络上面越来越多的信息是由用户来提供的，同时人们也越来越多地从网络上获取有用的信息。在这种情况下，网络信息提供者对于读者来说具有重要的作用：一方面他们的言论影响着读者的思考和对事物的认识，另一方面，他们提供的有用信息也成为读者获取新闻等信息的重要来源。而针对网络信息鱼龙混杂的情况，如何从中筛选出有意义的信息则是一个很重要的研究问题。　　 Blog，即博客，又称为网络日志，部落格等，是一种通常由个人管理，不定期张贴新的文章的网站。许多博客专注在特定的课题上提供评论或者新闻，其他则被用于个人日常生活的记录，因而博客已经成为一个重要的网络用户表达思想和讨论交流的工具。在现有的针对博客的排序研究中，由于网站与网站之间能够提供的信息和接口的数据不同，格式多样，所以很难利用统一的辅助信息(比如用户评论，rss数目，关注人数等)将博客进行统一的排序，同时，与普通的网页排序不同的是，博客之间缺少传统网页排序之间的超链接关系，所以现有的基于链接权值的排序算法很难直接应用到博客排序中。本文从博客文章本身出发，通过深入分析博客文章之间的文本特性，利用逻辑回归模型及图模型理论，构建出博客之间的隐藏链接关系，并利用此关系，来对博客进行排序，从而达到筛选出高质量的，对新闻时事敏感度高的博客站点。　　本文基于ICWSM提供的Blog数据，开发了基于图模型的博客排序的系统，并对系统进行了相应的实验比较，通过自动新闻热点匹配的方式来说明我们的方法要优于现有的针对博客排序的方法。同时，我们的方法直接从文本内容入手，所以一定程度上解决了新产生的网页没有链入链接的问题。为进一步的对于网络信息传播的研究和blog post之间的内在信息联系提供了理论基础。

其他文献

基于概念的web图像标注方法的研究与实现

随着数码设备的普及和互联网的快速发展，网络资源环境下的图像资源越来越丰富。如何从海量的web图像资源中检索用户感兴趣的图像成为信息检索领域的热点问题。近年来，基于概念

学位

web图像网络资源概念标注图像语义表达

科学计算数据库管理平台Honey Comb的存储系统的设计与实现

随着科技的进步，观测手段，实验工具的巨大革新，导致的数据的爆发式膨胀，科学研究方法从过去的经验科学阶段转变到以数据处理，分析，挖掘为核心的数据探索阶段。在十多年前，计算方法被

学位

科学计算数据库管理平台存储系统软件设计

面向文档的数据库存储系统的设计与实现

以微博、社交网络等为代表的Web2.0互联网应用的兴起及其处理数据量的爆炸性增长，对数据管理的灵活性、可扩展性、高性能的读写有了更高的要求。传统的关系数据库由于模式固定

学位

文档数据库存储系统关系数据库

MES系统中基于服务的动态对象模型中间件研究

随着企业信息化建设进程的推进,越来越多的企业需要集成各种不同的信息管理系统。在对企业信息管理系统进行集成时,主要会面对系统间的异构性、完整性、语义冲突和集成内容的

学位

铜板带排序策略建模动态对象模型服务发现

欠定混叠语音信号盲分离方法的研究

语音分离作为语音信号处理的重要研究方向,在语音识别、语音增强等方面都有着非常积极的意义。本论文在分析和总结以往研究工作的基础上,针对欠定语音分离的难点问题(传统算

学位

欠定语音盲分离独立分量分析稀疏分量分析直线隶属度函数K-SCA假设超平面隶属度函数

树凸二部图上反馈顶点集的算法和复杂性研究

反馈顶点集是给定图中的一个顶点子集，删除这个顶点子集让剩下的图成为森林。最小反馈顶点集问题是经典的NP完全问题之一，在实践中有广泛应用，包括操作系统中死锁预防和解除、信

学位

反馈顶点集树凸二部图计算复杂性多项式时间算法

基于全变差正则化的分类算法研究

分类问题是机器学习领域中的一个基本问题,对分类器的设计和改进等研究工作层出不穷并且日益出新。当前的分类算法主要以概率统计方法为理论工具,在模式识别、数据挖掘等领域

学位

全变差正则化机器学习分类算法图像处理模型

中文关键词提取技术研究

关键词是代表文章重要内容的一组词。对文本聚类、分类、自动摘要等起重要的作用。此外，它还能使人们便捷浏览和获取信息。现实中大量文本不包含关键词，自动提取关键词技术有也

学位

中文关键词提取算法主题模型词义相似度无指导分词

无线射频识别系统中的碰撞问题研究

无线射频识别技术(Radio Frequency Identification,RFID)是一种以空间电磁波为传输媒介进行非接触双向数据通信的数据自动采集技术。RFID技术具有广泛的应用前景,现已被应用

学位

射频识别防碰撞碰撞位跟踪后退策略并行处理分洪模式

中文电子书的元数据自动抽取研究

元数据是指用来标志、描述和定位电子资源的数据，也被称为数据的数据。它专门用来描述数据的特征和属性、提供某种资源有关信息的结构数据。有效的元数据组织可以让人们更方便

学位

中文电子书元数据自动抽取

基于图模型的博客排序系统的研究与实现

其他学术论文