Web文本聚类技术的研究和应用

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:zpf363188069
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘是指在大量文本集合中发现有用的模式和知识。作为文本挖掘的重要手段和数据挖掘重要分支的文本聚类对文本的处理、信息检索等领域有着广阔的应用前景。 本文研究的主要内容包括Web文本信息的预处理、中文文本分词技术以及文本聚类技术,并对词典机制进行了研究和改进。在此基础上采用词条查找算法对传统的最大匹配分词算法进行了改进和实现。 在对基于概念的中文文本聚类研究方面,采用引入知网这一本体论的概念属性体系进行基于概念属性的文本聚类的研究。着重研究了文本的概念属性特征表示策略、词义消歧策略及聚类策略,同时生成簇核心词集作为文档簇的描述性标注。根据目前比较通用的聚类结果质量评价指标,包括平均信息量、纯净度等外部质量评价指标对聚类结果质量进行综合评价分析和效率分析。实验证明本文研究的基于概念的中文文本聚类方法,无论是聚类质量还是聚类效率都优于传统的文本聚类方法,并具有一定的实际意义和应用价值。 在此基础上,将基于概念的文本聚类技术应用于企业竞争情报系统中,并实现了竞争情报系统中的一个重要组成部分——Web文本聚类挖掘系统。
其他文献
近年来,伴随住房货币化改革的推进,建设了大量的商品房、经济适用房,放开了二手房市场,使人民群众的住房条件得到了很大的改善,同时繁荣了我国住宅市场,使之成为国民经济一个有力的
随着企业信息化的步伐加快,PDM系统已经成为不同的制造企业竞相追逐的目标。PDM系统不但可以增强企业的信息管理能力,更重要的是可以缩短企业研发新产品的时间,控制研发成本
随着无线网络的发展,无线终端大量普及,无线网络上的多媒体业务需求日益增多。目前我国的无线网络多媒体技术还处于摸索阶段,因此,研究和开发基于无线网络的音频视频以及多媒体间
  随着微电子技术、电力电子技术、传感器技术、永磁材料与控制理论的发展,交流伺服系统广泛应用于工业生产的各个领域。数控机床的进给驱动是其典型的应用之一。  本文针
本文主要是对核Fisher(KernelFisherDiscrimininantAnalysis,KFDA)的理论和算法展开研究,以更有效的解决大规模样本学习问题。针对核fisher算法的两方面内容展开:一个是KFDA的传
开关磁阻电动机(Switched Relunctance Motor,简称SRM)驱动系统是20世纪80年代迅猛起来的一种新型电机驱动系统,该系统该系统由双凸极式磁阻电机、功率变换器、位置传感器和控制器四部分组成。由于其具有结构简单、运行可靠、系统控制灵活、效率高等优点,目前已成为电机和调速驱动系统研究领域中的一个重点课题。但是,由于SRM磁路存在严重的饱和非线性,所以难于建立易于解析的数学模型。
随着病人对医疗质量和服务水平需求的提高,特别是计算机和网络技术的普及,各种医疗信息系统开始在医院中投入使用,建设数字化医院已经成为当今医院发展的必然趋势。  然而,
近年来,射频识别技术(简称RFID)日趋为人们所热衷,特别是UHF频段的RFID技术,其各方面的优势使之成为未来RFID技术发展的重点。本文以UHF频段RFID读写器系统的设计研究为目的,
伴随飞速增加的带宽、实时和多媒体应用的普及、几乎持续的以指数规律增长的规模,Internet的控制机制和行为特征也日趋复杂和难以理解。由于网络流量数据的特性实际上反映了其
  本文探讨了如何在中国科学院范围内对宝贵的科学研究信息进行有效共享问题。尤其是科学数据库信息和众多学者专家所掌握理解的科学研究成果。随着科学院近半个世纪的飞速