论文部分内容阅读
通过在环境中设置禁忌状态,agent能够在与环境的交互过程中发现瓶颈状态,以及瓶颈状态之间的毗邻关系。agent根据瓶颈状态之间的毗邻关系,自动地从毗邻的瓶颈状态中挑选合适的瓶颈状态作为option子目标。同时在交互过程中获得Option的初始集,实现option的自动构造。网格环境中的导航实验验证了该方法无需人工干预就可以自动构造有用的option,即可以加快agent学习速度,也便于知识迁移,加快相关任务的学习。