形式概念分析在突发事件新闻文本聚类中的应用

来源 :山西大学 | 被引量 : 3次 | 上传用户:wly9007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是聚类方法与自然语言处理相结合在文本处理中的应用,是聚类分析领域的一个重要研究分支。随着近年来互联网新闻文本信息的急剧增多,文本聚类的方法得到了很广泛的应用和研究。然而针对当前文本信息结构和内容的复杂化,文本类型的多样化,传统的文本聚类方法在文本模型表示、特征选择等方面仍然存在不足之处。本文以从互联网上收集的2000-2009年期间发生的突发性新闻语料为基础,针对传统向量空间模型特征维数过高的缺点,提出将形式概念分析应用于文本聚类中,将web文档表示成形式背景,最后进行文本聚类。本文的主要工作如下:1.对突发事件新闻文本的特点进行了深入的分析,使用概念格模型表示突发事件新闻文本,改进了传统的向量空间模型表示文本的不足。2.改进了特征词权重tf-idf计算方法,在一定程度上提高了形式背景反映文本内容的真实性,最终提高了聚类的效果。3.针对突发事件新闻文本的特殊性,对相似度计算进行了改进,单独进行时间,地点,内容的相似度计算,最后将这三者结合起来表示文本间的相似度。4.设计并实现了基于形式概念分析的突发事件新闻文本聚类的实验系统。此实验系统对本文使用的聚类方法进行了验证。本文使用r,p,F1值进行评测,并与传统方法作了实验比较。实验结果表明,本文提出的将形式概念分析应用于突发事件新闻文本聚类可以改进聚类效果,并在一定程度上降低了聚类的复杂度。
其他文献
随着信息技术不断深入应用到金融、交通、军事、网络监测等领域,面向数据流的应用已经无处不在。而近年来互联网的广泛应用,海量的数据得以涌现。不同于传统的数据流只是一些
歌曲情感识别是音乐信息检索领域中的重要问题之一,本文主要研究并实现了两种歌曲情感识别方法。与已有研究工作不同,本文利用歌词文本信息,分析得到歌曲的情感。   本文
当前,Java系统以其良好的网络移动性、广泛的跨平台能力以及快速开发、快速部署的优势越来越受到开发者的欢迎。其应用领域从最初的服务器和桌面领域扩展到了实时和嵌入式领
近年来,傅立叶变换红外光谱仪(简称FTIR光谱仪)已得到广泛应用,专用的傅立叶变换红外光谱仪一般配备专用的光谱信号实时处理系统,以实现红外光谱信号的实时处理与分析。为了
学位
随着Internet的飞速发展,Web己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。搜索引擎正是一种帮助用户从信息海洋中找到用户所需要信息的工具。一些通用的
图像编辑是指将图像中的内容呈现进行改变,以更好的满足应用需求。这是当前国际上的一个热点研究内容。目前,这些方面的研究工作很多,但它们大都是在像素层面上进行处理,不便于对
工作流技术作为一个概念最初是出现在图像处理和文档管理领域中,它是业务过程在计算机系统中的表示。随着计算机网络、数据库和分布式对象等相关技术的迅速发展和成熟,工作流
大气光学参数实时测量及管理系统主要完成近地面激光大气传输有关的参数测量,并将测量到的参数发送到上层控制计算机,及对所测量到的数据进行管理。   针对上述情况,论文
学位
软件可靠性是度量软件质量的关键性因素,是软件使用者最为关心的问题之一。准确预测软件可靠性,有利于指导软件测试最大限度地发现软件故障,阻止失效发生,节约开发成本,提高软件质
中国互联网络信息中心(CNNIC)2010年1月发布的第25次中国互联网络发展状况统计报告指出,在3.84亿网民中,约3.21亿网民使用网络音乐应用,网络音乐以83.5%的使用率高居互联网应