口语对话管理中的对话状态追踪与策略优化

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：aiyang1983

【摘要】

：

口语对话是人类间最为普遍的交流形式。口语对话系统以语音为媒介进行对话从而实现人机交互，与传统交互方式相比，更加符合人们固有的交流习惯。近几年来，随着移动智能设备的兴起

【作者】

：

任航

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

状态追踪策略优化强化学习遗传算法口语对话管理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

口语对话是人类间最为普遍的交流形式。口语对话系统以语音为媒介进行对话从而实现人机交互，与传统交互方式相比，更加符合人们固有的交流习惯。近几年来，随着移动智能设备的兴起，以及相关软硬件技术的快速发展，口语对话系统再次受到了学术界和工业界广泛的关注。对话管理器是口语对话系统的核心模块，它的主要功能是在对话过程中追踪对话状态，并根据特定对话策略决定系统的下一步动作，从而以高效而自然的方式完成对话任务。本文主要针对口语对话管理中状态追踪和策略学习方面的若干问题进行研究。论文的主要工作及创新点包括:　　1.对话状态追踪是对话管理的主要功能之一，它的任务是从包含识别和理解错误的观测结果中，推断出当前用户的真实意图。在过去的研究中多使用基于规则或生成式模型的方法，但两这类方法均不能充分地利用多种特征信息。本文提出一种鉴别式马尔可夫模型，它能更好地利用相邻回合对话状态的相关性，并使用鉴别性模型对转移概率进行建模。在实验部分使用公开的DSTC系列评测数据集对模型的性能进行验证。结果显示，在基于最优结果的准确率指标上，该方法相比基线有3.8％的相对提高。而在评测输出概率分数质量的L2指标中，性能优势更为明显，与基线相比有着24.1％的提升。本文还在模拟的对话环境中验证状态追踪器对系统整体性能的影响。　　2.对话策略描绘了从对话状态到对话动作的映射，目前主要通过强化学习的方式对策略进行优化。口语对话过程中用户真实状态具有不确定性，只能通过概率分布的形式进行描述，这导致对话状态具有连续性的特点。因此，在强化学习中必须使用近似方法对值函数进行表示。本文介绍了Q-learning,SARSA、KTD等近似强化学习算法，并使用基于模拟用户的实验环境对各算法进行性能评估，在统一的实验条件下验证各方面的参数设定对性能及学习效率的影响。这些算法也被用作后续实验中的基线参照。　　3.在基于强化学习的对话策略优化中常需要大量的在线交互，因此通常需要预先构建一个模拟用户以进行策略训练。但模拟用户与真实用户在行为上存在一定偏差，为了避免使用模拟用户，本文提出使用基于高斯过程的批量式强化学习，直接在预先收集的对话数据集上进行策略训练。基于批量式的强化学习，本文还提出了一种在线的、渐进式的策略训练方式。实验结果表明，该方法具有优良的性能和学习效率，与基于线性模型的批量式强化学习相比，在累计奖赏值上有着38.2％的相对提升。　　4.基于强化学习的对话策略优化方法减少了策略构建中的人工参与度，并具有良好的鲁棒性，但其优化所得策略不易于理解和修改。在商业系统中通常对对话逻辑有着较严格的规定，并且可能需要根据具体业务的变更来及时地调整对话策略。因此强化学习策略不易理解的特点一定程度上限制了它的商业应用。本文提出一种新的对话策略优化方法，该方法使用对话任务相关语言指定对话策略模板，并用遗传算法对策略进行优化。在遗传算法优化目标，即适应度函数的定制中，本文给出了基于模拟用户以及基于对话语料库的两种适应度估计方法。本文在模拟用户及真实人机对话语料上进行实验验证。结果表明该方法在性能上与基于强化学习的方法相当或有所超越，在模拟实验环境中有40.6％的相对性能提高。在人工制定的策略模版中可能存在一定冗余，因此本文又提出使用遗传算法对策略的结构和参数同时进行优化。该方法被应用于在线式的对话策略学习中，与基于强化学习的方法相比具有更好的性能和学习效率。由此可见，基于遗传算法的对话策略优化在保证较高性能的同时，所得策略易于理解及修改，有利于向实际应用转化。

其他文献

浅析湖南汉族民歌的艺术特征——以《洗菜心》为例

湖南汉族民歌主要在长沙、湘潭、株洲三地流传,取材源于社会生活,将生活里细小的事情用山歌、号子、小调的形式进行表达,通过不同的传唱者润色加工,流传至今.湖南汉族民歌《

期刊

基于嵌入式系统的VPN设计与实现

信息通信技术的不断进步与革新,为我们社会的不断发展提供了强有力的科技支持,为我们的生活带来了极大的便利,信息网络的应用已渗透到了现代化社会的各行各业之中。进入21世

学位

网络安全虚拟专用网嵌入式系统计算机网络

当下小学音乐教学现状分析及建议

摘要：想要营造一个有效的小学音乐课堂，就必须要对小学音乐课堂教育教学有效性实施探讨，要求在小学音乐教育教学领域中必须要不断扩宽以及深化有效性。原因就在于小学生自身的身体和心理都没有得到十分成熟的发展，小学生开展的很多活动都会受到大人对其产生的影响，在小学生生活圈子里面最为亲近的就是小学生学校的教师以及小学生自身的家长，因此，对小学生实施音乐教育教学要求家长以及教师进行共同合作以及努力。本文中，笔者

期刊

小学音乐教学现状改建建议

一种在多相机系统中高速串行图像数据复接方法的研究

研制大视场推扫式的高光谱相机(或成像光谱仪),通常采用多个相对视场较小的成像模块进行视场拼接,提高系统的可设计性。本课题解决了成像光谱仪中多个成像模块与计算机的高速

学位

高光谱相机图像数据复接电路解串芯片数据组帧协议

青海高原宽鳞大孔菌液态培养及胞外多糖生物活性研究

宽鳞大孔菌[Favolus squamosus(Huds.ex Fr.)Ames]又名老木菌、宽鳞棱孔菌、鳞盖大孔菌、磷拟多孔菌、宽磷多孔菌等。隶属于担子菌门(Basidiomycota)、担子菌纲(Basidiomycet

学位

宽鳞大孔菌液态发酵发酵动力学生物学活性

高效课堂之探究性学习在高中生物教学中的应用

摘要：随着新课改的实施，探究性学习成为高中教学研究的重点，在教学中合理运用探究性学习的方法，不但能激发学生学习兴趣，还能培养学生的独立思维。生物作为高中教学的基础学科，具有难度大、抽象性强的特点，在生物教学中开展探究性学习具有重要意义。本文分析了在高中生物教学中开展探究性学习的意义，并针对教学现状研究了探究性教学的实施方法。　　关键词：高中生物；探究性学习；构建策略　　众所周知，探究性学习不仅只是

期刊

高中生物探究性学习构建策略

基于统计学习算法的人脸跟踪

人脸的检测与跟踪是身份辨识的重要方法,最近几年其应用范围在不断的扩大,因此人脸检测与跟踪已经成为许多学科的一个热门研究课题。本文首先采用基于统计肤色模型和基于统计

学位

统计学习人脸跟踪统计肤色模型Adaboost算法粒子滤波

杨力书画作品选

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

书画作品

Genotoxic Effect of Phenol on the Cells of Onion (Allium cepa) Roots

期刊