基于链接和内容分析的主题聚类算法设计和实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：xuhailinxhl

【摘要】

：

Web的永久保存具有重要意义，国际范围内许多组织和政府机构相继建立了大型的历史网页存档系统来永久保存网页，如Internet Archive和Web InfoMal。而如何对蕴含在海量网页存档系

【作者】

：

王磊

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2009年期

【关键词】

：

主题聚类大规模数据处理链接分析 Topic Model 相似文档检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web的永久保存具有重要意义，国际范围内许多组织和政府机构相继建立了大型的历史网页存档系统来永久保存网页，如Internet Archive和Web InfoMal。而如何对蕴含在海量网页存档系统中的信息进行有效的挖掘和利用是一个尚待解决的问题。对网页按照其主题进行聚类是解决此问题的一项基础性工作，对于主题的自动发现机制、信息提取、主题检索及建模等具有重要意义；同时主题发现与追踪(TDT)也是较长时间以来的研究热点之一。大规模网页的主题聚类在效率和精度等方面面临诸多挑战。本文在此问题上贡献如下：　　 1.参与设计和实现了一种基于文档最长公共子序列(LCS)的大规模相似文档检测算法(LCS算法)。该算法用于在主题聚类之前对网页进行消重，并在构建文章链接图(本文主题聚类算法赖以实施的基础)的过程中起关键的作用。算法利用文档间的LCS作为文档相似性的衡量标准，以提高检测精度和召回率；利用分治策略设计算法框架以解决LCS用于相似文档检测的效率问题。在本文的对比实验中，LCS算法在精度和召回率上优于Simhash算法和cosine算法：LCS算法的全局精度是0.95，Simhash和cosine分别是0.71和0.82；同时，LCS算法的召回率是Simhash的1.86倍，是Cosine的1.56倍。　　 2.设计并实现了一种大规模网页主题聚类算法(LCA算法)。通过分治策略提供了一种对大规模网页聚类效率瓶颈的解决方案，并利用主题相关性的局部性来进一步提高效率；通过链接分析和内容分析两阶段的处理充分挖掘网页间的主题相关性来保证算法精度。在链接分析阶段利用时间距离、链接强度和出链数量挖掘主题关联性，在内容分析阶段利用基于topics向量空间的Cosin距离挖掘主题关联性。在本文的对比实验中，LCA算法在精度和召回率上优于层次聚类算法和K-Means算法：LCA算法在F-值为0.94时精度和相对召回率分别是0.92和1；层次聚类算法的最优F-值为0.86，精度和相对召回率分别是0.87和0.91；K-Means算法的最优F值为0.71，精度和相对召回率分别是0.83和0.77；在效率方面，LCA算法对从Web InfoMall中提取的5500万文章的主题聚类可在439小时内完成，而另两种算法通常需要数年完成此过程。　　 3.基于上述的LCA算法开发了主题聚类系统。在Web InfoMall的数据集合上部署该系统，将其中的4.3亿主题型网页进行消重得到约5500万文章，然后将这些文章进行主题聚类获得约46万个主题，覆盖中的约3300万文章。作为对主题聚类结果的应用示例，在历史网页搜索引擎Histrace的基础上开发了针对主题的检索系统，提供对搜索结果的按主题排序和展示。

其他文献

基于多尺度分析的视频可分级编码技术研究

视频编码技术以及网络传输技术和用户终端设备计算能力的飞速发展催生出多种类型的视频服务，如视频电话和会议、移动流媒体、视频监控、IPTV等。然而，异构网络的时变特性，用户终

学位

视频编码技术多尺度分析运动估计搜索方法工作原理

一种新型版式文档格式的架构设计与关键技术研究

文档作为信息的载体，在人类历史和社会进步中发挥着重要作用。近年来随着电子技术的发展，电子文档日益普及。同时网络技术的迅速发展，手持移动设备的成本愈加低廉、性能愈加强大

学位

电子图书文档格式流式信息查询响应XML数据页面布局压缩模式

面向青海湖区域候鸟跟踪数据的可视化数据挖掘系统的研究与实现

自20世纪80年代末利用卫星技术开展对候鸟迁徙进行跟踪研究以来，极大地促进了候鸟迁徙研究的发展，并取得了很大的成功。针对青海湖地区爆发的禽流感疫情，开展了青海湖候鸟的卫星

学位

候鸟跟踪

“孩提”岂是“孩啼”

黑龙江出版的《老年日报》2004 年3月18日“红叶”专栏刊《抒怀》诗:“人生七十古来稀,我把古稀当孩啼。不断奉献不畏苦,珍惜今天好时机。”作者是在抒发胸怀,虽然年 “Aged

期刊

老年日报七十古来稀不言七十红叶形成年龄赵岐尽心上孟子

复合材料飞艇吊舱结构优化方法研究

民用飞行器重要的性能都是随着飞行器质量的增加而下降的,对于飞艇这类几乎完全由气体浮力维持升力的飞行器,其性能与质量的矛盾尤为突出.以复合材料制造的夹层结构和帽型筋

期刊

飞艇结构优化复合材料夹层结构帽型筋条Isight

CODA中时序相关缺陷分析技术的设计与实现

随着应用软件规模的日益增大，软件的运行环境越来越复杂，应用软件使用的中间件、第三方程序库越来越多，软件中包含的缺陷也越来越多。及时发现程序中的缺陷是软件领域的重要研究

学位

软件缺陷程序静态分析描述方法

C程序的静态分析

近年来，随着软件在社会生活中的作用越来越重要，软件的正确性也越来越受到人们的重视。然而如何保证软件的正确性却是一个一直都没有得到很好解决的问题。在上世纪六七十年代人

学位

软件开发正确性检测静态分析自动定理证明符号执行算法

基于本体的学习资源自动生成方法设计与实现

作为e-learning许多应用之一的智能教学系统，是现代教育技术的一个重要研究领域。随着网络和多媒体课件的发展，学习资源也越来越丰富，这样给学习者的学习选择提供了很大的灵活性

学位

教育技术智能教学系统有效学习资源教学策略

这真是令人啼笑皆非——重大发明创造被视为“旧货”!欢迎作者将被退佳作,再投本刊

期刊

“干部”别解

说到干部,不需要引经据典,不必请专家答疑解惑,大家都知道是什么职业。用老百姓的话来说,是吃皇粮的,坐小轿车的,手里有大印的,主席台上讲话的,是为群众办事的,这都没错。不

期刊

反对形式主义跑官要官椿木营乡贪污受贿宣恩县讲卫生中国人事心想事成艺术工作者子里

基于链接和内容分析的主题聚类算法设计和实现

其他学术论文