基于词向量的农业生产知识查询扩展研究

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:skb09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垂直搜索是针对某一领域的专业搜索方式,对于农业而言,大量的技术、经验都可以通过农业垂直搜索引擎提供给用户。虽然农业垂直搜索引擎已经可以解决对农业信息的专业检索,但由于我国各地都有各自的方言,而且农业生产者往往还存在打字不熟练导致出现错字词汇的情况,故在使用搜索引擎时,极大可能使用方言词汇或者错字词汇,这些在目前的农业垂直搜索引擎中均没有得到重视与解决。本文旨在利用词向量与定点匹配法实现一种查询扩展,解决农业生产者使用搜索引擎时,出现方言词汇或是错字词汇时召回率过低的问题。当查询语句中存在方言词汇或是错字词汇时,搜索引擎的召回率以及查准率都十分的低,很有可能搜不到相关的文档,这将极大的打击使用者使用搜索引擎的积极性。所以针对这种情况,提高检索器的召回率以及查准率十分有必要。传统的同义词表法无法将错误情况穷举,故无法完全解决这些异常查询语句。词聚类法由于异常词往往不存在于语料库中,故无法找到其的类。伪相关反馈法,由于初始查询文档很有可能就完全不相关,故也无法解决。相关反馈需要用户的配合,然而我国目前仍在务农的大部分为中老年人,对新事物缺乏耐心,故不大合理。查询日志法,对于开始的冷启动阶段无法解决。本文提出的基于词向量的定点匹配查询扩展法,首先进行查询语句中异常词的诊断,将用户的查询语句通过自由度与约束度的比较找出异常词。之后判断异常词是否为主题词汇,主要利用主题词汇其标题文档集与内容文档集的差异,来进行判断。再利用语料库训练语言模型时生成的词向量以及当地的种植信息,根据查询语句中的正常词汇,将异常词最可能的扩展词返回,从而提高搜索引擎的召回率。实验阶段,使用一个数据集与传统的两种方法下进行了比较,测试了存在方言词汇以及错别字时的召回率以及查准率,实验表明了本文的查询扩展方法能提升出现异常词汇时搜索引擎的性能。
其他文献
本文是一篇翻译报告,报告原文为《法律披露的司法语言学方法》第四章。该书讨论了格莱斯语用学原则及其信息操纵理论如何运用到法院对欺诈性披露文件案件的判决。在翻译过程
本文是一篇翻译报告,原文是英国最高法院颁布的卡地亚国际有限公司等诉英国电信等一案的上诉判决书。其判决结果对英国或其他国家未来出现的相似案件具有指导意义。由于英美
双眼是人类感知世界的主要器官之一。视觉传感器作为智能机器人的眼睛,能让机器人感知作业环境,提高机器人的智能程度,从而提高其工作的效率与精度。机器视觉及视觉算法,已成
近年来,多孔芳香骨架(Porous Aromatic Frameworks,PAFs)作为一类新型多孔材料,由于其芳香基构筑单元的骨架结构和碳碳键的连接方式,展现出优异的可修饰性和卓越的稳定性。它
随着今年3月份全国两会的召开,“养老”问题再次成为人们所热议的话题。随着老龄化程度的深入,再加上未富先老、子女数量减少以及家庭养老功能的弱化等因素的影响,中国的养老问题正面临着巨大的挑战。在此种情境下,越来越多的学者呼吁开展适合当地的政府购买居家养老服务。本文以政府购买居家养老服务满意度为切入点,研究东营市政府购买居家养老服务的实施效果,并提出提升满意度的相关对策和建议。东营市政府在开展政府购买居
农村土地承包经营权确权颁证工作,是优化农村土地利用的根本前提,是保障农民权益的根本机制,是深化农村土地制度改革的根本方向,是解决“三农问题”的重要途径。因此党和国家
随着人们对大气环境污染问题的日益重视,环境保护和燃油硫含量的相关规定陆续出台。燃油中大量有机含硫化合物的燃烧会转化为硫氧化物(SOx),同时还会造成酸雨和炭烟颗粒物(PM2.5
随着中国社会主义市场经济的发展和国际信息交流的增多,越来越多的法律文件引入中国,国内外的法律工作者越来越重视相互的交流和学习。法律书籍的翻译成为了相互学习的重要途
由单个脉冲激励的超声信号具备有限新息率信号特征,能够对其进行稀疏采样,进而从稀疏采样数据中准确恢复出原信号的关键信息参数,可以有效降低脉冲类超声信号的A/D采样速率,
氟喹诺酮类抗生素作为一类应用广泛的抗生素在全世界范围内受到了人们越来越多的关注,诺氟沙星抗生素作为其中的最具有代表性的抗生素,因其药效好、见效快和副作用小等优点更