论文部分内容阅读
口语对话是人类间最为普遍的交流形式。口语对话系统以语音为媒介进行对话从而实现人机交互,与传统交互方式相比,更加符合人们固有的交流习惯。近几年来,随着移动智能设备的兴起,以及相关软硬件技术的快速发展,口语对话系统再次受到了学术界和工业界广泛的关注。对话管理器是口语对话系统的核心模块,它的主要功能是在对话过程中追踪对话状态,并根据特定对话策略决定系统的下一步动作,从而以高效而自然的方式完成对话任务。本文主要针对口语对话管理中状态追踪和策略学习方面的若干问题进行研究。论文的主要工作及创新点包括: 1.对话状态追踪是对话管理的主要功能之一,它的任务是从包含识别和理解错误的观测结果中,推断出当前用户的真实意图。在过去的研究中多使用基于规则或生成式模型的方法,但两这类方法均不能充分地利用多种特征信息。本文提出一种鉴别式马尔可夫模型,它能更好地利用相邻回合对话状态的相关性,并使用鉴别性模型对转移概率进行建模。在实验部分使用公开的DSTC系列评测数据集对模型的性能进行验证。结果显示,在基于最优结果的准确率指标上,该方法相比基线有3.8%的相对提高。而在评测输出概率分数质量的L2指标中,性能优势更为明显,与基线相比有着24.1%的提升。本文还在模拟的对话环境中验证状态追踪器对系统整体性能的影响。 2.对话策略描绘了从对话状态到对话动作的映射,目前主要通过强化学习的方式对策略进行优化。口语对话过程中用户真实状态具有不确定性,只能通过概率分布的形式进行描述,这导致对话状态具有连续性的特点。因此,在强化学习中必须使用近似方法对值函数进行表示。本文介绍了Q-learning,SARSA、KTD等近似强化学习算法,并使用基于模拟用户的实验环境对各算法进行性能评估,在统一的实验条件下验证各方面的参数设定对性能及学习效率的影响。这些算法也被用作后续实验中的基线参照。 3.在基于强化学习的对话策略优化中常需要大量的在线交互,因此通常需要预先构建一个模拟用户以进行策略训练。但模拟用户与真实用户在行为上存在一定偏差,为了避免使用模拟用户,本文提出使用基于高斯过程的批量式强化学习,直接在预先收集的对话数据集上进行策略训练。基于批量式的强化学习,本文还提出了一种在线的、渐进式的策略训练方式。实验结果表明,该方法具有优良的性能和学习效率,与基于线性模型的批量式强化学习相比,在累计奖赏值上有着38.2%的相对提升。 4.基于强化学习的对话策略优化方法减少了策略构建中的人工参与度,并具有良好的鲁棒性,但其优化所得策略不易于理解和修改。在商业系统中通常对对话逻辑有着较严格的规定,并且可能需要根据具体业务的变更来及时地调整对话策略。因此强化学习策略不易理解的特点一定程度上限制了它的商业应用。本文提出一种新的对话策略优化方法,该方法使用对话任务相关语言指定对话策略模板,并用遗传算法对策略进行优化。在遗传算法优化目标,即适应度函数的定制中,本文给出了基于模拟用户以及基于对话语料库的两种适应度估计方法。本文在模拟用户及真实人机对话语料上进行实验验证。结果表明该方法在性能上与基于强化学习的方法相当或有所超越,在模拟实验环境中有40.6%的相对性能提高。在人工制定的策略模版中可能存在一定冗余,因此本文又提出使用遗传算法对策略的结构和参数同时进行优化。该方法被应用于在线式的对话策略学习中,与基于强化学习的方法相比具有更好的性能和学习效率。由此可见,基于遗传算法的对话策略优化在保证较高性能的同时,所得策略易于理解及修改,有利于向实际应用转化。