【摘 要】
:
文本分类(Text Categorization,TC)指的是把一个自然语言文本,根据其主题归入到预先定义好的类别中的过程。文本分类是自然语言处理的一个基础性工作,也是近年来人们研究的热
论文部分内容阅读
文本分类(Text Categorization,TC)指的是把一个自然语言文本,根据其主题归入到预先定义好的类别中的过程。文本分类是自然语言处理的一个基础性工作,也是近年来人们研究的热点话题。 基于概念的分类方法将关键词映射到概念空间,用概念作为特征进行分类。这样多个同义词就对应一个概念,而一个多义词在不同的语境下会被映射到不同的概念,提高了特征的凝聚度,克服了基于关键词的分类方法的缺陷,提高了分类准确率。 本文借助“知网”知识系统,将特征由关键词空间映射到概念空间,实现了基于概念的文本分类系统。在实现该系统的过程中,从三个方面提出了新的想法。第一,对普通关键词进行概念映射的同时, 提出了专有名词之间也存在“一词多义”,和“多词一义”的现象,借助一部专有名词词典,解决了专有名词的概念映射的问题。第二,在概念特征的权重计算方面改进了传统的TFIDF算法,并在实验中采用该方法取得了比较好的效果。第三,对比了几种常见的文本分类算法,并针对朴素贝叶斯算法在小样本集分类效果不高的原因进行了分析,对其进行了调整取得了更好的效果。
其他文献
构件是可复用的软件组成部分,可被用来构造其它软件。它可以是被封装的对象类、类树、一些功能模块、软件框架、软件构架、文档、分析件、设计模式等。软构件技术是基于面向
语义缓存是一种基于历史查询及其描述的缓存技术,因其节约网络开销、节省缓存容量、支持并发、支持网络断接下数据处理的特点而具备很好的实用性。现存的研究在语义缓存的
装备综合保障(综合后勤保障)工作是保证新研制装备在投入使用时即能得到有效保障且易于保障,从而能快速形成战斗力,降低寿命周期费用的主要途径。主要是解决装备寿命周期过程
随着信息技术的发展,数据挖掘和地理信息系统(GIS)都成为研究热点,而且二者都是多学科交叉领域,内容十分广泛。由于遥感、GIS等技术的不断进步,空间数据日益丰富,空间数据挖掘与知
本文探讨了动态Web技术,并对基于关系数据库的自定义工作流办公自动化系统进行了研究与探讨,主要内容包括以下几个部分:1、针对办公自动化在政府和企业中起到的作用,介绍和讨
图像分割是正常组织和病变组织的三维重构,以及手术模拟的一系列后续操作的基础,在整个虚拟手术系统中有至关重要的地位。由于医学图像的复杂性,一般的分割算法难于满足医学
传统的图像分割方法有许多缺陷,很难满足复杂的医学图像分割的要求。主动轮廓模型通过参数化的活动轮廓线,在由先验模型和图像数据构成的能量函数的驱动下变形,直到抵达区域
近年来,随着互联网技术的飞速发展,网络上充斥着病毒木马、信息泄露、数据篡改等各种安全风险。由于WEB应用日益复杂多样,WEB安全网关的安全防护作用越来越重要的。然而,为保障网
本文通过分析运营商的需求和现有可实现技术水平,本论文对建设一个可对传输网络进行综合管理的传输网综合网管系统进行了深入的研究。在文章中,详细描述了传输网综合网管系
随着信息技术的发展,信息化已成为当今世界经济、社会和科技发展的大趋势。作为今后的发展方向和战略重点,军队也在积极推进以信息化为核心的中国特色军事变革。在此背景下,