基于本体的文本特征选取和加权方法研究

被引量 : 0次 | 上传用户:kongct_2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本特征选取和加权方法主要是基于统计理论和机器学习方法的,在解决数据稀疏方面存在缺陷,在此基础上进行的文本分类精度往往都不能获得令人满意的效果,而且大量的研究结果表明,采用传统的文本特征选取方法获得的特征向量中,大量特征项之间都存在语义上的关联。本体是对客观存在的共享概念及其关系的形式化与明确的描述,具有良好的概念层次结构和对逻辑推理的支持。在文本特征选取过程中引入本体可以很好的将特征选取从词的层面上升到概念的层次,挖掘术语之间的更深层次上的关系。基于此,本文提出一种基于本体的文本特征选取和加权方法。首先通过去除停用词和词干提取等文本预处理方法对文本进行预处理,然后采用向量空间模型表示文本特征,获得初始特征向量。然后引入本体,将特征项映射到概念。基于本体的文本特征选取方法包括三个方面:构建文本概念树,特征项到概念的映射和计算初始权重。由于Protégé具有良好的可视化功能,在本体构建的过程中可以自动生成有关概念之间关系的结构图,也即文本概念树。文本概念树清晰的表示出了术语之间的层次关系,借此可以将特征项映射到概念。根据不同的术语关系,映射过程会出现一对一、多对一和多对多的情况,针对这三种情况,采用多个特征项共同映射同一概念的最大匹配方法。TF·IDF方法是特征加权方法中应用最为广泛的一种方法,本文采用该方法计算特征项的初始权重,但是TF·IDF方法在计算术语权重时没有考虑特征项之间的语义关系。为了使其更好的对特征项赋权,本文根据映射情况对该方法进行了加权改进。本文使用OWL语言和本体构建工具Protégé构建了一个小型的教育技术领域的本体模型,将该模型用于实验。实验结果分析表明,本文提出的方法能有效地提高文本分类的精度和降低特征向量的维数。
其他文献
保定素有“京畿重地”之称,是京津冀地区中心城市之一。2017年4月,中共中央、国务院决定设立雄安新区,涉及保定市雄县、容城、安新3县及周边部分区域。中国工商银行保定分行
以四乙氧基硅烷为单体,醋酸为催化剂,采用溶胶一凝胶法制备了包埋聚乙二醇的气相硅胶整体柱。通过探针分子的热力学参数和线性溶剂化能相关性模型对溶质分子与整体固定相之间的
我国法律关于试用期具有关于约定次数、劳动合同种类等限制,法律中关于试用期成立条件是必须是劳动合同期限为三个月以上的非以完成一定工作任务为期限的劳动合同,以前两者作
近年来,高举“贴近实际、贴近群众、贴近生活”的“三贴近”旗帜,以“民生视角”、“民本取向”为口号的民生新闻,横跨平面媒体和电视媒体,掀起了一股省级电视台民生新闻热潮
私人银行业务作为商业银行重要的中间业务之一,已经越来越受到我国商业银行的重视。在国外,私人银行业务已经成为一项成熟的银行业务,得到了全面的发展。然而对于我国来说,私
? ? 21世纪以来,随着社会的发展、科技的进步,信息技术运用得到了广泛的普及,成为国家经济和社会发展的重要环节。监狱作为国家的刑罚执行机关,承担着改造罪犯、维护安全稳定
四大国有控股商业银行是我国商业银行的主体。股份制改造时当今国有商业银行发展进程中的一件大事,这场脱胎换骨的变革也必将对国有控股商业银行的操作风险管理产生重大而深
双边市场理论是进入21世纪以后才引起国际经济学界和产业界广泛重视的前沿理论,交叉网络效应是双边市场的重要特征。网络招聘的市场结构符合双边市场的定义,目前网络招聘已经成
分居制度起源于欧洲中世纪,在当时由于秉承基督教的教义,确立分居制度目的在于将其作为禁止离婚立法的补充手段或救济方式。但随着历史的发展和社会文明的进步,人们对离婚的
样式雷圆明园图档综合研究是国家自然科学基金重点项目“清代建筑世家样式雷及建筑图档综合研究”的子项课题,目标在于系统鉴定现存样式雷图档中3000余件有关圆明园的图档。