近似动态规划在资源配置中的应用研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:nose88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大部分资源配置问题都具有离散或连续的状态和决策空间,针对中小型问题,一般运用动态规划(DP)、变分不等式或极大值原理求解,而对于大型资源配置问题,不管问题有无模型都面临着“维数灾”问题。经典DP的运算时间随着问题规模的增加而呈指数增长,变分不等式不能解决具有闭集约束条件的最优化问题,极大值原理只给出了最优化的必要条件。而近似动态规划(ADP)结合了强化学习、神经网络、自适应评价系统以及经典DP等基本原理求解复杂的非线性问题,通过近似计算值函数可以有效避免“维数灾”问题,并克服了其他方法的缺陷。它采用在线和离线相结合的模拟训练方式,能实时适应系统参数的变化,在近年来获得了广泛的研究。本文运用ADP为一般的高维离散型资源配置问题建立合理的数学模型,并提出了基于模型的Actor-Critic算法,然后结合两个具体实例验证模型的有效性及算法的收敛性。第一个实例是汽车租赁问题,在保持汽车持有量平稳变化的基础上,合理配置租赁公司各地汽车持有量,使总利润最大化,在计算机模拟过程中根据最优值函数和约束条件对各参数进行灵敏度分析,定义顾客服务评价指标得出相应的扩建计划。结果表明随着维修能力增强,利润也会增多,但是维修能力增强到一定程度,因为费用提高利润便不再增多。最后利用策略改进算法得出最佳汽车调度策略以达到“稳态”。第二个实例是存在交易成本的投资组合问题。实例面临资金量、交易成本、周转率、收益率和各种外在信息等不确定因素的“维数灾”问题。首先为长期投资组合问题建立一个两阶段ADP模型,第一阶段按照时间序列将整个问题划分为多阶段,按照收益最大化的原则求解一系列线性规划模型得到最优股票持有量,第二阶段是在每一个时间段运用固定资金动态规划模型进行迭代求解,采用ADP分段线性值函数近似方法,提出在不同风险因子下各期的投资组合策略。
其他文献
煤炭矿山企业往往在驻地内或者周边区域中还建有较大规模的职工家属住宅小区,随着网络的日益普及和移动终端的广泛使用,这些小区用户对无线WiFi的需求迅速增长,无线局域网得
文章阐述了《数控加工工艺》这门课程依托"3G实景课堂"模式将课堂与工厂间的相互转换,实现了来自企业生产现场的实时教学,让学生面临真实的"境"和"品"的一种新型的课堂教学模式,来
以我国众多中小生产企业人工手工工序作业系统的作业组织模式为研究对象,考虑小组工人在组织学习率-倦怠双因素的影响下,以小组作业模式的生产加工产品批完工时间为目标函数,通
由于房地产开发企业资金运用收益率普遍高于社会平均资金运用收益率,所以利用债务资本筹集经营资金,运用财务杠杆创造股东财富最大化成为开发商的热衷。使房地产开发过程中的
[目的]定量分析中国小麦生产驱动因素贡献份额,综合评价各因素对小麦生产的影响效应。[方法]采用埃塔平方法 (η2)来确定气候与气象、科技与生产投入和社会经济3组因素对小麦生
大理州洱海歌手大奖赛植根于基层群众,以“弘扬大理民族文化,活跃群众文化生活”为宗旨,从1988年起,历经25年,已经成为大理州群众文化活动的一个知名品牌。她为大理地区音乐事业的
在世界范围内,家族企业是一种较为普遍的企业组织形式。在我国,家族企业的数量占据了整个民营企业数量的80%以上。随着时代的变化,家族企业实行一定的现代企业制度,但由于受
北斗卫星导航系统(BDS)可以提供高可靠性和高精度的导航定位信息,但北斗信号易被遮挡或受到误差因素干扰而影响信号质量。捷联惯性导航系统(SINS)是一种自主式导航,信号质量可以免受干扰,但误差随时间累积,且工作之前需要进行初始对准。BDS和SINS各有优缺点但二者性能互补,二者有机结合构成的北斗/SINS组合导航系统,其综合性能优于自身单一的导航,可以有效提升导航整体性能。本文从BDS和SINS存
近两千年来,《关雎》的研究一直建立在《关雎》是周代之风这一基础之上,认为《关雎》是反映周代的婚嫁之事或歌,这些观点是基于将"雎鸠"视为一个单字的研究基础上而得出的。
鲁迅自1927年10月从广州来到上海,一直到1936年10月19日逝世,在上海整整生活了九年。在上海期间,他陆续出版了9本杂文集和历史小说集《故事新编》,先后编辑了多种文学刊物,翻译了
报纸