【摘 要】
:
随着网络的普及,通信网络的发达,互联网每天产生的数据成爆炸性增长。而这些数据中越来越多来源于移动端产生的数据。这些数据包括声音、文字、图片、视频等结构化和非结构化
论文部分内容阅读
随着网络的普及,通信网络的发达,互联网每天产生的数据成爆炸性增长。而这些数据中越来越多来源于移动端产生的数据。这些数据包括声音、文字、图片、视频等结构化和非结构化数据。然而对于结构化数据的分析已经有很多技术方法。对于非结构化数据的处理仍处于研究阶段,尤其是面对海量的非结构化数据,如何来分析这些数据,从中挖掘出有价值的信息也一直是大数据研究者的目标。那么,就会面对两个问题,第一,如何将这些海量的非结构化数据转化为结构化数据;第二,利用什么样的分析方法来分析数据,挖掘有价值的信息。本文主要针对京东网客户在移动端购买商品时产生的非结构化数据图片为数据源,利用Apriori算法来研究这些数据的关联规则,从而对数据之间的相关性做合理的分析。从而挖掘出相应用户个性的商品兴趣集合。实现单个商品推荐、捆绑商品推荐的准确性,提升客户端的影响力,刺激消费者购买欲望,实现利润最大化。主要分析工作包括一下几方面:(1)通过对京东用户客户端浏览商品的信息进行分析,总共抽取出1353张图片,并对这些图片进行分类整理出13个大类。对于这些非结构化图片数据进行处理,写入到XML文件中得到结构化数据,存入到数据库中。(2)建立相关性分析模型,详细研究Apriori算法,分析数据得到关联规则,然后做相关性分析。发现算法针对数据分析存在两个问题:1)数据处理速度比较慢;2)得到的关联规则并不一定符合用户兴趣度。针对这两个问题,对数据进行阶段性的细分,减少每次分析的数据量来提升数据处理速度,同时也做了内外两层数据分析的关联规则,提出了InOut-Apriori算法。并对改进得到新的关联关系做了相关性分析,同时对改进前后的算法数据分析做了比较,新方法能够很大程度上提高的数据结果的质量,缩小与预期的差距。
其他文献
中国,2016年9月21日——横跨多重电子应用领域、全球领先的半导体供应商意法半导体(STMicroelec-tronics,简称ST;纽约证券交易所代码:STM)推出了业内首个800 V表面贴装可控硅整流管(简称SCR,又称单向晶闸管)。当工作温度达到最高额定150°C时,新产品性能无衰退现象,使得开发人员能够任意缩减功率模块的尺寸,适合工况恶劣且需要高可靠性的电力应用。新产品TM8050H-8
中药地榆是蔷薇科(Rosaceae)地榆属(Sanguisorba L.)植物的干燥根或根状茎,地榆属植物在世界范围内约有30多种,我国共有7种,分别为地榆、宽蕊地榆、矮地榆、细叶地榆、高山地榆、疏
哈佛大学以尼古拉斯巴特利特为首的工程师们成功打印出一个身体具有弹性,同时可以使用喷气推进器,具有弹跳功能的章鱼机器人,不仅调整弹跳方向产,还可以控制着陆方式,兼顾保
【正】 1984年7月5日至8日,省档案学会在兰州举行第二次会员代表大会暨第三次档案学术讨论会。出席会议的120名代表,听取、通过了首届理事会工作报告,修订、通过了《甘肃省档
【正】 1976年6月28日至7月1日在美国博尔德召开了第五届科技资料委员会国际会议。美国国家档案馆的席保杜在会上作了发言,题目是:“作为科技情报一个来源的美国国家档案馆。
超声工作站是指应用主存储容量大、运行速度快之高档微机,通过专用医学影像设备接口模块与超声设备相连进行图像采集,应用超声工作站软件对超声检测数据、图像进行存储、分析
记者:刘总,Per—Hansson博士,您们好。非常感谢两位能同时接受《模具工程》的采访!请介绍一下在这届展会上贵公司重点展示的模具钢材有哪几种,这些产品独特性能主要有哪些?刘总:非
<正>薛莉主任现为天津市中医药研究院附属医院针灸科主任医师,从医近三十余年,潜心研究各类疑难杂症的临床治疗,经验丰富。笔者(第一作者)从师学习期间,受益匪浅,现将其运用
人与自然和谐相处,生态和经济可持续发展,是21世纪的主题。崇尚自然,维护环境,是现代绿色消费的潮流。随着电解水在农业领域的应用,电解水农业理念的提出,电解水肥系列产品的
马克思自然观是在对近代自然观特别是黑格尔和费尔巴哈自然观反思批判的基础上形成的,它为正确处理人与自然的关系提供了一个科学的分析框架,是当代中国实现科学发展的思想基