Blog挖掘和推荐系统的设计和实现

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:WHBGODWHBGOD
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的成熟,Blog作为Web2.0的重要应用,以其个性化的信息发布平台、多元化的内容载体等特点,吸引着越来越多的网络用户参与其中。撰写和浏览Blog已经成为网络文化新的流行热点,并直接推动了Blog搜索服务的发展。目前的Blog搜索服务大都是基于对查询关键字的匹配来实现的,缺乏自动提取用户兴趣并进行推荐的能力。本文设计和实现了一个面向Blog的挖掘和推荐系统Blog-digger,该系统采用Blog挖掘技术,能自动识别用户的兴趣,并主动推荐主题相关的Blog。   本文首先对Web2.0技术进行了概要性的介绍,然后,对文本分类技术进行了细致的探讨,并对该技术中所涉及的各种方法的特点及其性能进行了分析,选出更适合针对Blog进行挖掘的方法。本文还对Blog排名问题进行了较为深入的研究:介绍了基于链接的网页排序算法以及它们在Blog排名上的不适用性,又对现有的两种Blog排名算法进行了分析,指出了其存在的局限性。本文提出了一种基于Blog内容特征的新排序方法。该方法利用机器学习领域中的RankBoost算法,得到一个可以量化Blog热门程度的表达式。在nDCG标准测试中,新算法的排序结果比现有的Blog排名算法提高了14.5%。本文详细描述了Blog-digger系统的设计和实现,包括体系结构、服务器组件和客户组件,介绍了系统的工作流程以及实际系统的工作情况。
其他文献
串匹配是计算机研究领域的一个经典问题,是许多网络安全系统的关键技术之一.随着信息量的急遽膨胀,应用系统要求更准确、更快速的对海量信息进行分析过滤,采用简单关键词来描
静校正在地震资料处理中十分重要。经野外一次静校正后,残余的静校正量可用剩余静校正方法求出。剩余静校正问题实质上是一个非线性优化问题。遗传算法是一种重要的非线性全
本文所研发的“基于GIS的多目标地球化学信息管理与综合评价系统”以国土资源部与上海合作开展的“多参数立体城市地质调查项目”为背景。 上海社会经济近十余年来发展速
随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网
手绘草图既符合人们“笔录纸现”的思维表达习惯,又能充分利用计算机极强的信息维护功能,因此在人机交互领域具有强大的生命力。小型化、便携式和无线设备的快速发展极大地推动
随着互联网的发展,信息检索技术广泛地用于搜索任务。相比于传统的Unigram概率模型,Bigram相关性建模是提高检索精度的重要技术手段,但由于相关计算复杂性过高,难以应用于大规模
数据仓库作为支持决策制定过程的重要手段,近几年来得到了迅速发展,并已经成功应用到制造业、零售业、金融服务、电信、运输等多个行业。随着数据仓库的深入应用,数据质量问题成
贝叶斯网(Bayesian Networks,BN)是用来表示不确定变量集合联合分布的图形模式,有清晰直观、较为符合人们思维方式的特点。目前,贝叶斯网已经成为AI领域的研究热点。当使用贝叶
随着互联网和电子商务的迅猛发展,互联网上的多媒体信息急剧膨胀,数字化多媒体产品可通过下载的方式从网上购买,数字作品的拷贝、修改非常容易,且可以做到与原作完全相同。如何有
本文研究了使用不同蕴含算子和不同关系合成算子下的扩展的CRI模糊推理算法的输出模糊集采用真值递延法清晰化方法时的的应用效果。 第一章首先概要介绍模糊推理的发展过