论文部分内容阅读
如今,Web已经成为信息量最大、应用范围最广的传播媒体。但面对着Web中的海量数据,人们依然无法解决知识匮乏的问题。Web新闻的主题检测研究为人们提供了一种由数据管理向知识管理转变的方法,它以媒体信息流为处理对象,将信息流分割为独立的新闻报道,监控持续不断的报道流以检测可能出现的新主题,或将涉及某主题的报道组织起来,以某种方式呈现给用户。其本质是一种主动的信息服务机制。
在Web环境中,新闻报道的海量、变化等特征使得新闻的主题检测研究更加困难。由Web环境引发的主题偏移问题、海量报道间的关系识别问题以及基于新闻流的主题检测等问题都对Web新闻的主题检测研究提出了新的挑战。
本文对Web新闻主题检测涉及的相关问题进行了深入研究,提出了一套完整、可行的Web新闻主题检测方法,其中包括基于布局特征的半结构化数据信息有效性判定技术、基于动态属性的主题回溯检测方法以及基于新闻流的主题检测方法等。
本文的主要研究成果包括:
1.提出了集成的Web新闻主题检测框架该框架为用户提供了一种主动的信息服务机制,在忽略信息差异性(不同的信息来源、信息格式以及信息检测方式等)的同时,提供统一的新闻服务接口,满足了用户对不同类型主题检测的功能及性能要求。
2.提出了基于布局特征的半结构化数据信息有效性判定技术该技术用于自动识别海量半结构化Web页面中的信息分布特征。以Web页面划分形成的内容块为研究对象,基于文本分析、链接分析技术自动进行信息的有效性判定,并对不同类型信息的分布特征进行归纳。利用获得的信息分布特征集合,指导相似的半结构化数据完成信息有效性的判别。该方法有效地避免了主题无关信息可能造成的主题检测结果偏移,同时,保留的Web页面有效链接为页面间的关联挖掘提供了研究基础。
3.提出了基于聚类动态属性的主题回溯检测方法该方法用于自动发现系统未知的主题,并联同相关报道一起提供给用户。基于聚类过程中簇分布的不断变化,以词状态的转移规律为研究对象,利用状态间的概率转移描述报道与已知主题间的语义相似度,并基于语义相似度对报道文档的聚类结果进行预测。该方法能够完成对Web新闻的主题回溯检测,为文本聚类算法提供了一种新的解决思路。
4.提出了基于Web新闻流的主题检测方法该方法用于自动识别Web新闻流中新出现的主题,并识别其与历史报道间的关联。基于新闻特征及传统的向量空间模型,提出了一种新的报道文本表示模型。通过新文本表示模型中的组合条件查询,对报道相同或相关事件的Web新闻报道进行判定,并根据不同的查询匹配模式快速确定新报道与历史主题的关系。基于Web新闻流的检测方法能够适应Web环境下数据量大、动态变化等特点,为海量信息的主题检测提供了有力支持。
为了比较全面地分析和考察本文中提出的一系列关于Web新闻主题检测方法的有效性,结合北京大学COMMIX系统的研制工作,在真实数据集上进行了大量实验,通过多项对比测试和性能分析验证了方法的有效性。