论文部分内容阅读
跨语言文本分类技术是指在不需人工干预的情况下将现有的自动文本分类系统由单语言扩展到两种或多种语言。当机构或组织的文档管理部门日益依赖自动文本分类时,跨语言文本分类技术能为其解决多语种文档的归类组织问题提供支持。本文以国家图书文献中心(NSTL)的多语种科技语料为研究对象,以一部科技类的汉英科技词典为资源工具,提出了一种基于跨语言文本分类系统的构建方法,实验结果验证了采用本文方法进行跨语言分类的可行性,也为下一阶段建立实用跨语言文类系统奠定了基础。