高效率事件挖掘技术研究及其验证系统实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:azsxdcfvgb0987654321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究基于突发信息(Burst)的高效率事件挖掘技术,并在中国网络信息博物馆(Web Infomall)[2]的历史网页数据上实现了一个事件挖掘系统。本文的主要内容包括三个部分:   1.针对Kleinberg的Burst挖掘算法[1]因固定全局概率带来的不适合长期数据上的挖掘的缺陷,提出了改进方案和新的EnvBurst算法。新算法采用词汇的局部相关文档概率信息,较好地体现了信息随时间动态变化的特征。实验表明新算法挖掘长期数据上的Burst时正确率大幅提高。   2.提出了使用Burst作为文档表示特征的BursWSM模型,这一模型可以高效的表达文档所包含的“事件”信息。基于BurstVSM模型,本文提出了一种适用于海量数据的高效率事件挖掘算法,以文档聚类取代前人工作中常用的Burst聚类方法来挖掘事件。本文比较研究了对文档的层次聚类和LDA聚类,实验表明使用层次聚类的方法在挖掘效果和运行效率上都得到更满意的结果,比Swan等人提出的通过Burst聚类来挖掘事件的TimeMines[9]算法在挖掘效果上有明显改善。   3.基于上述理论和技术研究成果,我们开发了历史事件博物馆(EventMall)系统。EventMall系统使用了Web Infomall的历史网页数据,从中选取2000年1月到2009年10月近十年间的11,218,581篇高质量的新闻网页作为挖掘的语料,挖掘得到81,407个事件。通过热门事件浏览和历史事件查询的功能,EventMall使用户可以方便地浏览研究中国互联网上过去十年发生的重要新闻事件。
其他文献
人工植物优化算法是一种新颖的群智能寻优算法,它通过模拟植物生长的过程,建立了具有光合作用算子、向光性算子及顶端优势算子的人工植物算法框架,但由于该算法的局部搜索能
“离线下载”是近两年来伴随云计算技术出现的一种新型的互联网资源分发方式。它基于云平台提供广域网的、智能的代理下载服务,因此也被称为“云下载”。在该系统中,用户向系
信息隐藏技术作为保护机密信息的一种新手段,越来越受到人们的重视,得到广泛的应用与研究。将标识产品的数字序列、文字、图像等信息隐藏于产品中,这就是数字水印技术,它是信
网络恐怖信息过滤的研究不仅能够促进网络内容安全和人类情感认知等相关领域研究的发展,而且对构建和谐网络环境,维护社会稳定具有重要的社会意义。本文针对恐怖视频展开研究
随着终端数量和流量需求的提高,无线局域网(WLAN,Wireless Local Aera Network)中单位空间设备和流量密度越来越高,高密场景吞吐量瓶颈越来越突出。IEEE802.11协议中的增强分布
访存性能是影响高性能计算机性能的重要因素之一,提高访存性能对提高应用性能具有重要作用。超并行(Hyper Parallel Processing,HPP)体系结构是国家智能计算机研究开发中心提出
框架排歧研究是SemEval-2007中第19项语义分析评测"Frame Semantic Structure Extraction"中的一个子任务。该研究基于FrameNet语义知识库,针对句子中给定的歧义目标词(能够
目标跟踪是通过对摄像机所拍摄的视频图像序列进行处理,找出连续图像帧间的对应关系,实现对图像和图像序列中的运动目标进行跟踪,给出其运动轨迹。目标跟踪在目标运动的视觉
航空航天可靠性的评估是航空航天领域的热点和难点。由于航空航天器可靠性关系到航空航天产品的造价、寿命以及其在空间的运行情况等多个方面,因此航空航天可靠性技术的发展
确定性启发式路径规划算法能够利用启发函数高效地进行目标搜索,在导航、制图、地理信息系统以及机器人学等方面得到广泛应用,是人工智能领域的研究热点之一。本文在分析传统确