基于语义理解的文档编写辅助系统算法研究与实现

来源 :长安大学 | 被引量 : 1次 | 上传用户:wzq8013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档编写辅助系统对于提高文档编写效率具有重要的意义。目前商用的文档编写辅助系统主要侧重文章结构、文章素材或则两者兼备方面的辅助。针对语义理解的文档辅助编写研究很少,智能化不够。为此,本文提出研究基于语义理解的文档编写辅助系统。取得了以下主要研究成果:1)提出了一种基于加权二部图匹配的中文段落相似度计算算法。该算法忽略了段落元素在段落中的位置和顺序,能够处理词语之间同义词替换、句子倒装结构、段落描写某个主题采用倒叙手法等中文段落常见现象。比向量空间模型(VSM)算法在中文段落相似度计算的准确度上有了很大提升。2)在加权二部图匹配算法的基础之上,设计并且实现了符合本系统的语义搜索引擎,把素材的精确推荐由字符串字形上的匹配和词语层次的理解上升到句子、段落层次的综合理解。本文的语义搜索引擎由检索语句预处理模块、语义相似度计算模块、智能构建索引模块、排序模块构成。其中在检索语句预处理模块中,使用基于HMM自主训练分词系统,建立垂直单一领域的专用分词系统。3)设计并且实现了基于关键词的爬虫程序,可以自动爬取文本素材、语义清洗素材、批量导入mongodb数据库,保证系统的素材数据库能够不断自我更新。4)文本素材自动分类算法测试平台搭建,编写了一套常用分类算法性能检测平台,通过特征选择和参数调整,一次性对lr,bayes,tree,extratrees,bagging,adboost,svmnusvc,svmlinear,svmcrbf,forest50,forest100等工业上常用分类算法进行性能测试,为系统选择合适的文本分类算法。5)集成各个功能模块,最终完成了基于语义理解的文档编写辅助系统软件开发工作,达到了设计要求。经测试表明,系统可以对交通领域文档编写提供一定程度上的帮助。在素材的精确推荐上比通用文档编写辅助系统检索准确度高,深层次理解用户意图好。
其他文献
南宁机场是广西壮族自治区机场集团下的第一大型机场,是我国面向东盟的重要国际门户机场,是国内机场旅客吞吐量千万级俱乐部成员之一,T2航站楼也是广西壮自治区首府南宁市的
学困生在广大的农村中小学校,是一个特殊群体,他们的发展影响着义务教育的成效。关爱学困生这个群体,帮助他们转化进步,是广大农村中小学教师的责任所在。本文对农村学困生形成的
选用国内11个玉米自交系,采用GriffingⅣ双列杂交设计组配出55个杂交组合,对穗粒重、穗长、穗粗等8个穗部性状一般配合力和特殊配合力进行分析,结果表明:穗行数、行粒数、轴
分别以Al2O3-SiO2,Al2O3-TiO2,TiO2-SiO2和TiO2-ZrO2双金属氧化物为载体研究Ni基催化剂的愈创木酚加氢脱氧性能.重点考察了催化剂载体、溶剂种类、反应温度和压力对愈创木酚
乳腺癌患者术后需要接受化疗,但化疗常给患者带来痛苦,导致恶心、呕吐、腹泻、便秘等胃肠道不良反应,严重的不良反应能延迟治疗,以至影响化疗全程的完成。本文对乳腺癌术后化
<正>2004年3月到9月,在为中央电视台体育频道与电视剧频道、新浪、广州日报等媒体实施品牌营销期间,我得以近距离观察到国内媒体转型的多种路径,也因而得以注意到这些新路径
外套式复合射孔技术核心部分为外套式复合火药筒,是复合火药套在射孔枪外的一种新型射孔技术,该技术通过普通射孔枪、射孔弹、导爆索和复合火药筒等共同作用实现,技术优点是
本文主要针对高职院校室内设计人才培养问题展开研究。伴随社会的发展、科技水平的提高,人们生活水平和审美情趣的提升,传统教学模式已无法适应时代的发展要求。在这样的社会
<正>12000年,就是《小灵通漫游未来》里畅想期盼的那个年份,来到天津,这个老牌城市,跟儿时记忆中的飞鸽自行车、海鸥表、恒大烟连在一起的老牌城市。老牌城市,恰如曾经辉煌的
<正> 自二十世纪七十年代中期以来,人们往往不是根据"性"而是根据"敌意"和"力量"来解释强奸罪的犯罪动机。然而,关于这些犯罪动机的经验性的证据却极为有限。在本文中,我们借