论文部分内容阅读
作业车间动态调度是最一般的调度类型,模式驱动调度(PDS)是实现动态调度的有效方法.本文在PDS框架下,就问题进行了以下研究:(1)基于agent技术构建作业车间动态调度系统,采用一种新的分布式控制体系结构,通过agent之间的交互投标双向选择完成调度任务分配,提出了3种复合规则作为合同网的谈判策略.(2)提出了复合规则Q学习方法,定义调度过程的中间状态描述变量——紧迫度,并构建了一种精确评价动作好坏的回报函数形式,通过仿真试验验证了该算法的有效性.提高制造单元机器人智能水平对扩展制造系统的生产能力起着重要作用.本文给出机器人技能学习的概念;总结机器人学习的建模方法;总结演示学习和强化学习方式的研究概况;归纳机器人技能学习目前研究的可行方向.机器人复杂技能强化学习是一类比较困难的学习问题,为此,本文研究各种措施以期解决该难题.考虑到回报函数对强化学习系统的关键性作用,设计了一种启发式回报函数形式,并对其最优策略不变性和Q值迭代收敛性给予了证明,将输入状态空间进行多尺度离散化,运用CMAC神经网络函数近似,实行多种行为选择策略、分层递阶的学习策略,并通过学习控制自行车的仿真试验验证了上述技能学习方案的有效性.