论文部分内容阅读
文档编写辅助系统对于提高文档编写效率具有重要的意义。目前商用的文档编写辅助系统主要侧重文章结构、文章素材或则两者兼备方面的辅助。针对语义理解的文档辅助编写研究很少,智能化不够。为此,本文提出研究基于语义理解的文档编写辅助系统。取得了以下主要研究成果:1)提出了一种基于加权二部图匹配的中文段落相似度计算算法。该算法忽略了段落元素在段落中的位置和顺序,能够处理词语之间同义词替换、句子倒装结构、段落描写某个主题采用倒叙手法等中文段落常见现象。比向量空间模型(VSM)算法在中文段落相似度计算的准确度上有了很大提升。2)在加权二部图匹配算法的基础之上,设计并且实现了符合本系统的语义搜索引擎,把素材的精确推荐由字符串字形上的匹配和词语层次的理解上升到句子、段落层次的综合理解。本文的语义搜索引擎由检索语句预处理模块、语义相似度计算模块、智能构建索引模块、排序模块构成。其中在检索语句预处理模块中,使用基于HMM自主训练分词系统,建立垂直单一领域的专用分词系统。3)设计并且实现了基于关键词的爬虫程序,可以自动爬取文本素材、语义清洗素材、批量导入mongodb数据库,保证系统的素材数据库能够不断自我更新。4)文本素材自动分类算法测试平台搭建,编写了一套常用分类算法性能检测平台,通过特征选择和参数调整,一次性对lr,bayes,tree,extratrees,bagging,adboost,svmnusvc,svmlinear,svmcrbf,forest50,forest100等工业上常用分类算法进行性能测试,为系统选择合适的文本分类算法。5)集成各个功能模块,最终完成了基于语义理解的文档编写辅助系统软件开发工作,达到了设计要求。经测试表明,系统可以对交通领域文档编写提供一定程度上的帮助。在素材的精确推荐上比通用文档编写辅助系统检索准确度高,深层次理解用户意图好。