Web新闻的主题检测方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:sclin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,Web已经成为信息量最大、应用范围最广的传播媒体。但面对着Web中的海量数据,人们依然无法解决知识匮乏的问题。Web新闻的主题检测研究为人们提供了一种由数据管理向知识管理转变的方法,它以媒体信息流为处理对象,将信息流分割为独立的新闻报道,监控持续不断的报道流以检测可能出现的新主题,或将涉及某主题的报道组织起来,以某种方式呈现给用户。其本质是一种主动的信息服务机制。 在Web环境中,新闻报道的海量、变化等特征使得新闻的主题检测研究更加困难。由Web环境引发的主题偏移问题、海量报道间的关系识别问题以及基于新闻流的主题检测等问题都对Web新闻的主题检测研究提出了新的挑战。 本文对Web新闻主题检测涉及的相关问题进行了深入研究,提出了一套完整、可行的Web新闻主题检测方法,其中包括基于布局特征的半结构化数据信息有效性判定技术、基于动态属性的主题回溯检测方法以及基于新闻流的主题检测方法等。 本文的主要研究成果包括: 1.提出了集成的Web新闻主题检测框架该框架为用户提供了一种主动的信息服务机制,在忽略信息差异性(不同的信息来源、信息格式以及信息检测方式等)的同时,提供统一的新闻服务接口,满足了用户对不同类型主题检测的功能及性能要求。 2.提出了基于布局特征的半结构化数据信息有效性判定技术该技术用于自动识别海量半结构化Web页面中的信息分布特征。以Web页面划分形成的内容块为研究对象,基于文本分析、链接分析技术自动进行信息的有效性判定,并对不同类型信息的分布特征进行归纳。利用获得的信息分布特征集合,指导相似的半结构化数据完成信息有效性的判别。该方法有效地避免了主题无关信息可能造成的主题检测结果偏移,同时,保留的Web页面有效链接为页面间的关联挖掘提供了研究基础。 3.提出了基于聚类动态属性的主题回溯检测方法该方法用于自动发现系统未知的主题,并联同相关报道一起提供给用户。基于聚类过程中簇分布的不断变化,以词状态的转移规律为研究对象,利用状态间的概率转移描述报道与已知主题间的语义相似度,并基于语义相似度对报道文档的聚类结果进行预测。该方法能够完成对Web新闻的主题回溯检测,为文本聚类算法提供了一种新的解决思路。 4.提出了基于Web新闻流的主题检测方法该方法用于自动识别Web新闻流中新出现的主题,并识别其与历史报道间的关联。基于新闻特征及传统的向量空间模型,提出了一种新的报道文本表示模型。通过新文本表示模型中的组合条件查询,对报道相同或相关事件的Web新闻报道进行判定,并根据不同的查询匹配模式快速确定新报道与历史主题的关系。基于Web新闻流的检测方法能够适应Web环境下数据量大、动态变化等特点,为海量信息的主题检测提供了有力支持。 为了比较全面地分析和考察本文中提出的一系列关于Web新闻主题检测方法的有效性,结合北京大学COMMIX系统的研制工作,在真实数据集上进行了大量实验,通过多项对比测试和性能分析验证了方法的有效性。
其他文献
利用低成本、低功耗、多功能、体积小以及可进行短距离通信的无线传感器网络技术,得到越来越多的关注。由于无线传感器网络具有硬件资源有限、能量有限、以数据为中心、自组织
随着计算机软硬件技术的迅猛发展,互联网络、局域网络条件的大幅改善,以及IT经营意识的增强。许多企业甚至政府建立起了相对完善的IT运营体系,但是原有的IT架构无法较快地适应和
随着网络和通信设备的迅速发展,从PC到控制关键基础设施的系统都加入互联网,单个软件系统的错误可能影响多个系统,且便于攻击者利用软件漏洞进行攻击,攻击者无需占领物理的信息系
当前集群系统已经成为高性能计算体系结构发展的趋势,它极大地提高了高性能计算的发展,并逐渐从科学研究发展到其它各领域。在实际应用中,集群的软硬件资源相当丰富,这些资源
快速发展的3D应用技术给相关产业提供了难得的发展机遇,同时也提出了不少挑战性的问题。其中如三维重建一直是计算机图形学领域的一个研究热点,但鲜有研究试图重建物体的语义信
近年来,由于社交网络,即时通讯工具的普及,大量的文本数据涌入我们的生活。如何利用文本挖掘技术,从海量“堆积如山”的文本数据中更快速寻找到有价值的信息,成为各行各业的需求。
互联网和计算机网络正在为企业的全球化和集中化发挥着推动作用。尽管互联网和计算机网络在许多方面取得成功,但是在许多领域也存在着效率低下的问题。其中最严重,同时也是研究
由于软件规模的不断扩大和运行环境的逐渐复杂,软件安全漏洞问题正日益加剧,并不断威胁到政治、经济、国防和社会安全等重要领域。软件安全漏洞检测是对软件安全漏洞进行预防和
关于产品质量问题的研究由来已久,可靠性是产品质量的固有特性之一,是产品质量的重要方面。无论是硬件产品、软件产品还是软硬件结合的复杂系统产品,正确评估产品的可靠性是评估
搜索算法是逻辑证明中的经典方法,广泛用于直觉主义逻辑,古典逻辑等多种逻辑系统。Kripke模型是一个非常简单而有效的模型,它能对解释直觉主义逻辑的语义给予合理的解释。