基于用户行为分析的用户画像系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yl2590
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依据中国互联网络信息中心公布的数据显示,截至2019年6月,我国网民规模为8.45亿。以上数据可以看出中国互联网发展迅猛,而随之而来的就是指数式增长的用户数据。在互联网用户及用户行为数据极速增长的背景下,如何有效的利用这些数据为用户提供个性化的服务成为很多公司的难题。美国营销学家艾尔·里斯和杰克·特劳特也提出产品定位和消费者定位,指出企业应该具有明确的客户群体和产品定位。因此了解产品所面向的用户群体变得越发重要,而由用户行为数据提取的用户画像可以有效的体现用户的特征和切身需求。本文据此提出了基于用户行为分析的用户画像系统。本文主要通过对用户行为数据进行聚类分析来构建用户画像。传统的K-means聚类算法存在对噪声数据敏感且初始聚类中心的选择对聚类效果影响较大的问题,在此背景下,本文提出了带离群点检测的K-means聚类算法(KMOD)。首先,利用LOF算法完成对目标用户行为数据的离群点检测,计算出每个样本数据的异常度系数,完成离群点分离操作;然后,计算出剔除离群样本点之后样本每个维度的数值范围;最后,利用平均差值法求出初始聚类中心的位置,并开始聚类分析。KMOD算法在公开数据集上进行实验验证,与传统K-means聚类分析算法的实验结果对比表明,KMOD在簇内的内聚度和簇间的分离度上有所提升。在完成聚类分析之后,本文对每个簇类中的数据又做了用户的兴趣挖掘,通过Word2vec将用户的博客文档进行Document Embedding得到高维文本向量矩阵,再结合人工标注数据作为模型输入参数,利用SVC算法挖掘用户兴趣标签,提升了用户画像挖掘深度。本文采用了 MVC的设计模式进行系统开发,并设计了独立的画像定时更新模块。选取Laravel框架作为基础框架完成了画像系统的业务逻辑,并利用百度开源框架echarts完成数据可视化。系统设计与开发遵循软件工程规范。主体流程从需求分析开始,然后进行概要设计、详细设计、系统编码实现,最后进行系统测试。
其他文献
知识型员工在当今知识经济时代发挥着重要的战略资源作用。随着科技技术的不断发展和大部分新生代知识型员工的步入职场,生长在新时代的一代人,成为当今时代发展的主军力量,
随着流动儿童群体的日益扩大,流动儿童的人际交往问题成为社会工作研究的一个重点领域。流动儿童跟随父母进入城市,面临着教育模式转变、离开原生文化和社会环境的一些问题。
随着互联网的发展,各种终端的普及,尤其是移动设备,网络中的数据不再是线性的增加,而是以指数的趋势在猛增。每天各种各样不同来源的数据充斥着网络。用户在这巨大的数据洪流中眼花缭乱,无法快速的获取有效的数据。如何行之有效的从这些嘈杂数据中找到用户需要的信息,成为了一个迫切的问题。而推荐系统正是解决这个问题的一个重要手段。通过推荐系统,用户可找到迎合他们兴趣的相关物品。本文主要的研究重点,就是融合辅助信息
椭圆曲线密码(Elliptic Curve Cryptography,ECC)算法是一种公钥密码算法,由于具有比RSA密钥更短、安全强度更高、功耗更小、存储空间更少等优点,进而被广泛应用于快速加密,身份认证,数字签名等领域。目前对于椭圆曲线的研究大多数都是针对Weierstrass曲线,而对于Edwards曲线的研究却很少。本文主要针对Edwards曲线上的标量乘算法进行研究。标量乘是ECC上的核
近年来,无人车、机器人、无人机等领域科技发展速度飞快,无人车成为全球汽车产业发展的战略方向。无人车是一个系统的工程,其中分为无人车的感知、定位和决策,其中感知和定位是首要问题,是决策部分的基础,其研究都还处于初级阶段。利用多元传感信息进行无人车的感知与定位,已成为当今的研究热点,单一传感器不能提供精确完整的信息,利用多元信息可以有效准确地感知和定位。本文通过利用无人车的多元传感信息,对无人车的感知
目前,全球经济一体化已经呈现出成熟的态势,很多企业中都存在着管理团队是否有效的问题,企业界和众多学者都关注到了团队建设这一热点问题,因此探索和研究如何更好的去建设团队,这将会有利于发挥目标导向功能,促进企业凝聚力的形成,有利于激发团队成员的工作积极性,实现企业价值目标、企业竞争力的提升,促进企业更快更好的发展。IKOR公司是一家中小型欧资代加工企业。主要制造的产品包括电子锁、感应炉、检测设备、精密
税务部门是规范行驶公共权力的政府职能部门,其整体运行状态、服务水平、工作效能等内容都影响着纳税人评价中的政府形象刻画。随着市场经济体制的不断完善,我国税收法治化、现代化建设进程已然加速,纳税服务已成为我国财税改革的关键环节。面对纳税人服务需求的日益增长和服务型政府建设的加快推进,为纳税人提供高效便捷的纳税服务体验,已成为了当前税务部门首要工作任务。2018年国地税征管体制改革之后,H市税务机关将优
本文运用偏最小二乘法回归,对第二轮试点以来的三年内我国银行业信贷资产证券化业务发行产品的定价问题进行了研究。研究发现,对于优先A档证券,发行当日指导利率越低、证券加
在大数据时代,云计算作为一种便携、按需、可共享的服务模式,已在各行各业得到了广泛应用。云存储的外包模式使得小型智能设备摆脱了计算和存储资源的限制。但数据的外包必然会导致用户失去对数据的物理控制。如果文件被二次外包到危险地区或失去监管保护,数据拥有者的数据可能会面临丢失或被滥用。数据拥有者对于数据定位存在重要需求。学术界和工业界针对数据定位给出了很多解决方案。学术界主要依据服务器与客户端设备之间的通
羧基化合物是一类以羧基为官能团,以碳链为基本骨架的有机物。常见的羧基化合物以盐、酯或游离酸的形式在生命体内广泛存在。其不仅是脂类、碳水化合物和氨基酸等细胞构成物的中间代谢物,也是生理活动中生化反应的底物或产物。它们在生命体内浓度的高低与生物体生长发育,衰老和某些疾病(糖尿病、炎症)息息相关。此外,随着人们对自然改造而滥用羧基化合物,羧基化合物也成为常见的环境污染物之一。因此,建立快速,灵敏度高,准