基于Spark的上车点推荐系统的设计与实现

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:lws8228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“互联网+”时代的到来,互联网+交通在近几年得到了快速发展。D公司作为一家快速成长的互联网科技公司,它的产品改变了人们传统的出行方式,极大提高城市交通效率。当网约车已经成为一种普遍现象,用户出行数据便呈爆炸式增长;交通数据的积累与大数据处理技术的日渐成熟,为基于交通大数据的深度学习、机器学习应用提供了可能。通过对订单的分析,本文发现当用户通过D公司的应用软件叫车后,一般需要与网约车司机经过一次或者多次电话沟通才能确定上车位置。为了减少司机与乘客的沟通成本、降低接驾时长,对用户网约车行为数据进行了深入的调研分析,旨在通过表面的现象挖掘出目前产品的真正问题和痛点。通过对大量数据的分析,发现目前的产品存在绕路、沟通修改上车位置、修改发单位置等三种不同严重程度的用户体验问题。为了改善网约车接驾的用户体验,可以借助更多订单过程中的信息综合推荐上车点,比如司机接单时的定位位置、订单终点位置以及用户历史打车行为等。上车点推荐的策略优化能够减少司机与乘客沟通成本;对于司机而言,上车点推荐的优化可以提高整个行程的性价比,获得更好的利润;从企业角度,上车点推荐的精准能够提高接驾效率,同时增加用户的粘性。本文通过分析订单中司机与乘客的轨迹数据、用户位置信息、订单基础信息,设计并实现了一个基于Spark框架的上车点推荐系统,该系统包括基础上车点挖掘、日志解析整合模块、订单抽取模块、特征提取模块、样本标注模块、模型训练以及离线效果评估模块。该上车点推荐系统采用机器学习方法解决上车点推荐的排序问题。基础上车点挖掘是指为每个订单挖掘出乘客的真实上车位置;日志解析整合模块是将订单的相关数据进行解析整合,以便进行订单抽取;订单数据抽取模块基于日志解析整合模块的输出结果进行订单随机采样,是构建训练数据的基础模块;特征提取模块对每一个候选上车点提取特征向量;样本标注模块可以灵活的针对不同建模思路进行标注;模型训练模块采用Spark MLlib和LightGBM框架,对上车点推荐问题抽象为“二分类问题”或者“排序问题”进行模型训练;离线效果评估模块评估模型在预测集上的表现,业务评价指标为离线定点率。“成单后”上车点推荐系统通过对用户场景的进一步理解,改善了上车点推荐的用户体验问题,同时增强了推荐结果的可解释性。本文通过切分流量进行AB Test方法对新的推荐模型与线上已有的基线模型对比,模型效果观察期间模型分支的订单定点率相比基线分支的定点率提升将近2个百分点。
其他文献
制浆造纸是废水的主要来源之一。随着环保要求的日益提高,造纸厂的废水处理工艺和技术也面临更大的挑战。概述了造纸厂利用原生纤维制浆造纸和再生纤维制浆造纸所产生的污染
目的:建立自身免疫性心肌炎大鼠模型,探讨肿瘤坏死因子超家族成员(TNFSF14)LIGHT及其受体HVEM侄实验性自身免疫性心肌炎大鼠心肌组织表达及意义。方法:从猪心室肌组织提取心肌肌球
做合格的处级公务员,是时代的要求和形势发展的需要。我国加入WTO,机遇与挑战并存,根据WTO规则,“入世”首先是政府的“入世”,最大的挑战是对政府及其公务员队伍的挑战,最积极的应
从当前加油站卸油面临的实际问题出发,阐述了卸油溢出油品的危害性及防溢油措施,重点分析了液位仪、高液位报警器、防溢阀等在加油站油罐防溢方面所起的作用。
<正>近日,人力资源和社会保障部表示,中央高度重视养老保险可持续发展问题,已经制定了相应措施:通过实施降低社保费率综合政策,做大养老保险的"蛋糕",形成企业发展与养老保险
残疾人是指由于各种先天或者后天原因引起的生理或者心理缺陷,再加上外在环境的作用,造成无法正常参与到社会活动中的人。残疾人是特殊的社会弱势群体,残疾儿童则是这一群体