基于在线视频用户数据的DMP系统的设计与实现

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:goldsir1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着个人电脑和智能手机的不断普及,以及网络带宽成本的不断下降,在线观看网络视频已经成为人们生活中常见的一种娱乐或学习方式。国内几个著名的在线视频网站每天都会有亿级的访问量,因此会产生大量的用户数据。如何存储和有效的利用这些数据,来支持公司的广告精准营销,用户统计,数据挖掘,效果评估等不同的业务场景,是需要解决的问题。针对此问题,本人所在的实习公司优酷土豆实现了一个DMP系统,即数据管理平台。在技术选型时,主要考虑以下几点:DMP的原始数据量非常大,对于数据处理能力要求高,但是这份数据的生成时效性要求不高。DMP需要有一个实时查询的接口来满足外部业务要求,对所生成的结果数据的操作需要有强大的实时计算技术来支撑。综合上述两点,我们在技术上分别采用了MapReduce的框架和SPARK的计算框架,来实现离线和实时的计算任务。在优酷土豆工作期间,本人主要参与和完成了DMP系统的需求分析,设计,开发,测试以及维护工作。工作内容如下:(1)参与并完成了系统的需求分析,包括功能需求与非功能需求。(2)参与并完成了系统的概要设计,包括系统的总体概要设计,数据预处理功能、数据合并功能、人群筛选与投影功能等功能模块的概要设计。(3)负责并完成了系统多个模块的详细设计与实现,包括标签体系的详细设计,日志解析模块的设计与实现,用户频道偏好挖掘设计与实现,用户偏好Top20子频道的设计与实现,用户广告关键词偏好的挖掘设计与实现,数据清洗模块的设计与实现,Hive中UDF函数的实现,数据合并模块的设计与实现,人群筛选管理接口详细设计与实现,人群投影接口详细设计与实现。(4)负责并完成了多个功能模块的测试用例编写与实际功能测试工作。(5)负责系统的维护与更新,包括自动化脚本的编写,以使各分区数据定时更新。在实现该项目的过程中,主要用到的技术为Hadoop 的 MapReduce框架以及Spark Sql,实现的语言为Java、Hive口shell脚本。使用Git进行版本控制,Maven进行项目管理。本系统目前已经上线,且运行稳定,公司多个业务场景和广告产品都已经做了对接,效果反响良好。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
研究一类捕食者和被捕食者都具有阶段结构,功能响应是非单调函数的时滞捕食与被捕食系统的概周期性,利用Brouwer不动点定理获得了系统存在概周期解的条件。
为了实现对已有数控工艺设计成果的有效重用,提出了一种基于局部特征匹配的数控工艺推荐系统模型,该模型利用局部特征级的三维极半径矩结合几何尺寸等其他几何语义信息建立加
微电网在实际运行的过程中,具有多种储能单元以及分布式电源,为其提供运行能量。基于此,本文将首先介绍微电网中常见的储能单元。其次,分析储能单元运行基础上微电网的经济运
随着亚洲基础设施投资银行越来越受欢迎,美日态度也越来越成为大家关注的焦点。日本政府将中国主导的亚投行视作美日主导的亚开行的竞争对手,因此一直和美国政府一起抵制亚投行
二十一世纪以来,伴随着网络传输技术的进步和链路带宽的增长,互联网用户和应用快速增长,随之带来的最明显的变化就是数据量呈指数式爆炸性增长,海量的网络流量数据带来了存储
中小企业是国民经济最重要的基石,中小企业数量多、规模小、分布散、需求杂、变化快,中小企业公共服务平台的建设与发展,是中小企业服务体系中最重要的组成部分,是我国促进中小企
在文章中,我们提出了一类具有意识分类和带有干预措施的分数阶HIV/AIDS传染病模型。讨论了模型无病平衡点和地方病平衡点的存在性,并且证明了地方病平衡点的依赖分数阶导数的
期刊
目的:通过对初诊2型糖尿病患者不同组别以及健康受试者的血清叶酸、VitB12和血浆同型半胱氨酸(Homocysteine,Hcy)水平进行比较以及相关性研究,为糖尿病患者早期预测糖尿病周