基于多级模糊识别的文本自动分类的研究

来源 :杭州电子工业学院 杭州电子科技大学 | 被引量 : 0次 | 上传用户:wxhex2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了一种基于多级模糊识别的文本自动分类体系.在文本的表示方式上,采用了以词语表示文本的方式,对文本进行以词为单位的切分.在词频统计上,提出了基于位置加权的词频统计方式.鉴于标题、摘要等特殊位置处的词反映文本内容的能力更强,针对不同特殊位置的词给予不同的加权系数,综合后得到各文本的词频向量.在特征词的选取上,提出了基于综合指标的有效特征词的选取原则.词在类内分布的均匀性指标,词在类内分布均匀,则它在某类的算术平均词频值才能体现它在该类中的总体分布,按照类内方差的阈值筛选特征;词频指标,低频词具有一定的偶然性,对分类效果会产生负面影响,过滤那些每个类的词频均值都低于某阈值的词;类间差异性指标,特征词对各个类的区分性较强,按照词的类间方差阈值选取一定数量的特征词,这样形成最后的特征词集合.文本分类采用基于模糊模式识别的分类器.在结构上提出一种多级的分类结构.模糊分类器是通过计算测试样本模糊集与标准类别模糊集之间的贴近度对文本进行归类.如果第一级分类结果不能满足阈值的要求,则在测试样本最可能属于的标准类别子集范围内再进行二级分类以提高分类的性能.实验数据表明了该系统的可行性.
其他文献
该文的研究目标定位为:基于计算机支持协同工作的研究工作,结合新一代网络软件协作需求,研究相关的软件协作机制、软件协作系统的实现方法与机制,构造相关的原型系统,并应用
该文中作者们分别给出了这些处理的算法和流程及相庆的数据结构.针对研究过程中遇到的问题,作者们应用相关领域的研究成果基础上,提出了多个新的算法和判定规则:采用Chient/S
该文主要研究了如何根据给定的目标描述,进一步自动化、智能化地组合、集成和执行Web services以达到目标.该文采用的解决方案就是,让智能Agent自动地规划、集成和调用各种各
随着时代的发展和人们需求的不断提高,通信行业在过去的几十年里发生了翻天覆地的变化,尤其是移动通信的迅速发展,使用户彻底摆脱终端设备的束缚,实现了完整的个人移动性。进
该文介绍了网络搜索引擎的发展历史、目前现状,并对搜索引擎系统和检索系统的原理进行了研究和分析,并从查询处理和文献分类两个方面做了进一步的研究,提出了两种新的处理方
该文在分析已有关联规则挖掘算法的基础上,提出了应用于Web文本集的特征关联规则挖掘框架,详细地论述了该框架所涉及的主要技术和实现过程中涉及的诸多问题.据此,给出了该框
论文首先对电信业务支撑系统及企业应用集成做了简单介绍与分析.论文根据综合营业系统的建设目标,选择了三层体系结构来进行建设,并给出了综合营业系统的软件体系结构.统一客
该文在研究UML和形式方法的基础上,提出将UML和形式方法相结合,使它们各取所长.基本思想是:一方面用形式语言形式化UML.该文主要采用两种方法:1、用Object-Z形式化UML的无模型.
学位
该文首先对数据仓库和OLAP的理论,详细分析了传统MIS在数据分析方面存在的问题,提出在MIS中建立与事务处理相分离的数据分析系统的必要性,并提出了OLAP与MIS集成的C/S和B/S/D