基于词汇链的文本主题识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zilong2006min
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本识别可以帮助研究学者们快速选择所需要的数字信息,加快研究进度,提高研究效率。目前自动文本识别方法存在着一些不足,如文本表示模型保留的原文本信息较少,忽视了语言单元之间的关联信息等。与其他文本表示模型相比,词汇链文本表示模型可以保存更丰富的原文信息,应用于文本识别应该会有较好的效果。目前词汇链文本表示模型还存在一些问题,通过使用分布式语义模型,可以解决一些问题,提高词汇链构建的效果,进而提升文本识别的效果。  本文在对当前自动文本识别方法进行了广泛调研的基础之上,总结了目前文本识别方法的不足,提出了基于词汇链的文本识别方法。具体思路是,利用分布式语义,加强词汇链对词衔接关系的探测能力,同时将基于词汇链进行文本识别作为一种新的思路,通过对词汇链中重要内容的分布情况进行研究,提出基于链的文本模型,并根据词汇链的多个特征进行分段决策,实现文本的解释。主要解决了两个主要问题:如何构建分布式语义增强的词汇链构建方法;如何基于词汇链进行文本的探测和识别。采用医学领域的文本数据对方法进行了可行性和有效性的验证,以专家人工标注的核心词作为基准数据,将论文提出方法同非贪婪算法、TF*IDF方法、Ercan方法以及LDA方法的结果进行对比。实验结果表明,本文提出的方法在各方面效果都要比对比算法的效果有所提高,能够有效的揭示文本主题,得到的结果更明确,有助于文本的理解。本文提出的方法具有较好的可行性和有效性。
其他文献
本文对组织的知识共享中存在的障碍进行了深入分析,在此基础上探讨了组织的知识共享障碍的消除策略。  本论文分为六章。  第一、二章分析了目前组织的知识共享的研究现状
CAD图是生产建设中一种非常重要的信息资源。Internet的迅猛发展,促进了CAD图在网络上的应用。然而,要在Internet海量的信息资源中搜索所需要的CAD图却十分困难。要解决这个
作为高等教育的组成部分,通识教育以培养青年人具有广泛的基本知识、技能和独立人格为目标,是所有大学生都应接受的非专业性的教育。随着信息时代的快速发展,知识增长速度超过以
学位
随着信息技术的飞速发展,人类社会的生产和生活都发生了革命性的变化。承担社会管理职能的政府更是在这场信息化革命中受到了前所未有的冲击,同时也面临着促进自身发展的良好机
摘要:在后应试教育时代与在新课程实施初期的背景下,不少教师在追求新的教育理念的同时,摒弃了传统的教学常规,也没有建立必要的、适合新课程背景的教学常规,致使课堂教学出现诸多混乱、无绪的状态。而要提高语文课堂教学效率,就必须使课堂教学过程达到一个最优化的状态,这就迫切需要语文课堂教学紧紧抓住规范的缰绳,用鲜活的教学理念规范课堂,用规范的教学程序指导课堂。  关键词:语文教学;规范;教师;学生  中图分
本论文对基于ontology的逻辑,ontology的结构,基于ontology的推理技术和方法,以及基于ontology的规则进行了系统的研究。此外,本论文还对多种逻辑形式作了分析,并对多种描述逻辑语
目前高校图书馆的数字资源大规模增长,但异构的数字资源却给用户的利用带来障碍,使信息资源的效用没有得到发挥。从用户需求和信息服务环境等方面都提出了信息资源整合的要求,如
员工绩效考核是企业管理的一个重要组成部分,合理的绩效考核机制,有助于提高企业的劳动生产率和竞争力,为企业的薪酬管理、人员调配、员工培训工作提供依据,并有助于员工进行更好
学科信息门户是组织网络信息资源并提供学科信息服务的一种模式,具有专业性、集成性、知识性、智能性、可靠性等特点,在高校医学图书馆的信息服务实践中具有很好的应用前景。网