论文部分内容阅读
为了更合理地提高铁路客票收入,分配运输资源,管理部门会根据既有列车客票收入情况、开行情况、沿途车站发送旅客人数等因素形成一张收入决策表,依据此对新开行列车客票收入进行预测,这样既可以更合理地为铁路局下达下一阶段的客运收入指标,也为管理部门有效地进行成本控制和客运组织提供了保障。但是,随着我国高速铁路网络建设的飞速发展,列车开行情况更加复杂多样。面对新的形式,相关管理人员仍然凭借经验或人工干预的方式对影响客票收入的因素进行处理,再根据这些处理的结果对客票收入进行预测。实践证明,其结果已经不能满足预算工作的需要。目前,基于粗糙集理论方法的知识发现模型已被应用于多个领域,并且取得了比较显著的效果。但是,应用于旅客列车客票收入知识发现和预测仍处于起步阶段。由于影响铁路客票收入的因素较多,数据类型复杂、具有非线性、高噪音等特征,因此,本文提出了一个基于粗糙集的客票收入知识发现和预测模型,利用其挖掘出客票收入知识背后潜在的规则,形成一套能够对客票收入进行有效预测的知识发现模型系统,在理论和实际应用方面都具有重要意义。本文将列车整体和沿途各站客票收入作为研究对象,在模型中构建了数据预处理、基于粗糙集的知识发现、收入预测等三个模块。在第一个模块中,针对客票收入知识发现的数据特点,提出了一种“K-means-CACC”算法对目标变量进行离散化处理,此算法避免了非监督离散化方法忽略数据分布信息、区间边界确定不具有代表性等缺点。在第二个模块中,基于粗糙集理论方法计算条件属性对决策属性的依赖程度,采用基于核属性的启发式约简算法将初始决策表中的冗余属性进行约简;采用随机森林算法构建客票收入知识发现规则,此方法避免了关联分析方法无法计算出规则和产生矛盾规则的问题。最后,基于上述生成的知识规则库,本文提出了“粗糙集-集成学习”模型对客票收入进行预测,此模型将深度神经网络长短期记忆法LSTM(Long short-term Memory)、XGBoost(Extreme Gradient Boosting)算法和基于误差区间交集的目标选取算法作为个体学习器分别进行收入预测,再按照Stacking集成算法进行融合。在论文的最后,针对各模块中提出和利用的方法,依据实际客票营销数据进行了有效性验证。验证结果表明,上述方法能够有效地形成简明、易于理解的决策表并且较现行方法能够更精确地对客票收入进行预测。