【摘 要】
:
随着互联网技术的飞速发展且日益成熟,使得互联网上的信息每天都在呈现爆炸式增长,但同时也出现了“信息丰富而知识相对匮乏”的问题。由于Internet的开放性及异构性,用户很难快
论文部分内容阅读
随着互联网技术的飞速发展且日益成熟,使得互联网上的信息每天都在呈现爆炸式增长,但同时也出现了“信息丰富而知识相对匮乏”的问题。由于Internet的开放性及异构性,用户很难快速准确地从互联网上获取自己所需的有价值信息,因此,文本挖掘技术在近几年倍受研究者的关注,是一项重要的研究课题。文本挖掘是数据挖掘与信息检索两门学科的交叉,可以对文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。这首先需要对文本进行预处理,获取文档的特征表示,抽取文档的信息才可以实现的。但是由于中文文本的组织方式不同于西文,给以上技术的研究带来了相当大的困难。虽然目前在文本预处理方面的研究有些进展,但是对于文本信息获取的精度都不是很高,还有很大的研究空间。本文正是对中文分词、特征抽取、文本分类等技术分别进行了研究,主要做了如下的工作:1.由中文词条切分技术开始,介绍了几种分词的方法,并设计了一个分词系统,提出了一种改进的歧义消除算法;2.研究分析了文本特征值的抽取技术,分析比较了几种特征值获取技术性能优劣,重点研究了信息增益和互信息以及词频统计等方法,提出一种改进的特征抽取方法,并实现了相应的系统模型;3.分析比较了文本分类技术,利用改进的权重和KNN分类方法相结合,实现文本的分类,并通过实验来验证其相应的查全率和准确率。
其他文献
嵌入式测控系统是当前工业自动化测控应用领域研究的热点之一。近年来,嵌入式Web成为实现嵌入式测控系统主要方式之一。本文利用Freescale公司2004年年底推出的集成了以太网
在多标签分类中,一个样本可能同时包含多个标签,多个标签之间可存在相互重叠。随着数据集的标签维度增高,以及标签稀疏性问题,会导致分类算法的计算复杂度增加,分类性能下降
目前的人工免疫系统大多都是建立在传统免疫学理论——“Self-non-self”(SNS)识别模式的基础上,由于SNS模型本身的缺陷,使得对self集定义中如何保证其不包含任何nonself以及
聚类分析作为一种信息处理手段近些年来一直受到人们的关注,而且在机器学习、模式识别、数据挖掘、信息检索等很多领域得到了广泛的研究和应用。聚类分析在数据挖掘研究中占
云计算可以提供多项服务,这些服务主要分为三种服务模式,分别为基础设施即服务(IaaS)、平台即服务(PaaS)和软件及服务(SaaS)。越来越多的企业和个人将他们的业务存储在云端,然而却给敏
实体关系抽取是信息抽取领域内的重要研究课题。同时,实体关系的识别对于篇章理解、信息检索、问答系统和机器翻译等方面的研究都有非常重要的意义。随着信息呈海量趋势,关系
港口是重要的军事和民用建筑,而且港口是需要获取信息才能捕获的目标,因此研究在卫星遥感图像中自动提取港口目标的技术成为军事应用领域的重要任务,也是目前模式识别和图像处理领域的一个研究热点之一。港口识别技术在军事上有着重要的应用前景。港口因其环境和特征的复杂性使得其识别技术称为模式识别领域的一个相当困难的问题,要使这一技术成为完全成熟的技术还有许多工作需要去做。本文首先根据港口目标的特点对其进行分析,
目前网络上涌现了海量的视频数据,其中存在大量非法信息的问题,本文针对这一情况提出了多媒体信息处理系统的背景和总体设计方案。该系统分为疑似非法视频的发现和分析两大部
随着网络技术的迅速发展,网络管理的地位越来越重要。网络智能配置管理成为实现高效网络管理的一个关键问题,Web技术的成熟和XML的蓬勃发展,给网络管理技术和模式带来了又一次革
随着通信新技术不断出现和电信行业竞争态势的日益加剧,业务驱动网络发展的趋势已经日益清晰,业务和市场决定新技术的成败成为人们的共识。因此,业务接入和提供技术已成为下