论文部分内容阅读
智能问答改变了传统搜索引擎返回超链接的方式,能把海量的互联网信息转化为知识,并能够理解用户的自然语言问题和意图,快速、准确地直接给予答案,大大减少了用户查找信息的时间,是下一代智能搜索服务的发展方向。本文主要完成了智能问答系统的设计与实现,该系统能够理解中文自然语言问题,从本地知识库以及Web数据中快速地找到所需的信息。该系统主要包括问句理解和答案检索两大模块。问句理解包括词法分析、问句分类、主体识别、谓词识别与消歧以及问句元转换。答案检索包括基于RDF知识库的答案检索和基于Web的答案检索。中文分词与词性标注是中文文本语义理解的基础,也是本文所实现的智能问答系统的关键步骤。本文针对现有中文分词中词性标注存在忽略上下文信息的问题,基于最大熵和分词词典相结合的方法,改进了兼类词的词性标注过程。本文将自然语言问句分为:人物类、电影类、音乐类、图书类、游戏类、应用类等六个类别。采用CRF(Conditional Random Field,条件随机场)自定义组合特征和自定义标注集获取问句的类别和问句的主体。采用词典匹配和句法分析获得问句中的谓词,并使用词语相似度计算方法对谓词进行消歧,该处理使问句中的谓词和RDF知识库中的属性名称相一致。给出问句元的定义并将问句转换为问句元。问句元是由“[主体,谓词]”组成的自然语言问句结构化表示形式。问句元的转换准确率决定对问句的理解是否准确。答案检索采用两种方法:基于RDF知识库和基于Web。RDF知识库中存放有大量知识三元组,知识三元组涉及人物、电影、音乐、图书、游戏、应用六个类别。本文在问句理解基础上,依次对问句进行分类、主体识别、谓词识别与消歧以及问句元转换,并根据问句元将问句转化为SPARQL结构化查询语言,从RDF知识库中抽取答案。如果在RDF知识库中没有检索到答案,则采用基于Web的方法进行答案的检索。该方法将问句作为搜索引擎的查询请求,从返回的查询结果中抽取答案。