面向社会化商务的大数据分析系统研究方法

来源 :科学与财富 | 被引量 : 0次 | 上传用户:yan19891989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 本文围绕社会化商务呈现出的分析型应用需求,根据多源异构大数据特点,设计合理的数据结构和索引结构。将对传统的数据挖掘技术进行重新设计,提出了更多地采用基于磁盘的算法、增量算法、近似算法、和随机算法,使数据挖掘技术真正适于大数据计算,大数据计算真正能服务于社会化商务智能。同时将基于已有计算模型,通过模型的融合、优化、耦合,设计并实现具有高扩展性、高性能、跨异构数据的大数据计算框架。
  关键词: 大数据;NoSQL;数据挖掘;数据分析;数据处理
  一 研究目的和意义
  融合社会网络的社会化商务比传统电子商务更为复杂,更迫切需要借助面向大数据的商务智能技术,才能有效实现一系列智能化电子商务应用,包括:海量客户关系管理、个性化推荐、口碑营销和精准广告投放等。而几乎所有的基于数据挖掘、处理和分析的商务智能技术无不与底层多源异构大数据存储、管理和分析密切相关。本文面向社会化商务这一新兴应用之需求,对适应大数据计算的数据挖掘分析、处理两个层面的若干关键技术问题展开描述。
  世界范围的信息化变革使得几乎每个行业都面临着大数据(Big Data) 问题。社会媒体、云计算、物联网、移动互联网等新兴应用的逐步推广,进一步加剧了大数据的井喷态势,让大数据挑战成为一个迫在眉睫的问题。大数据是蕴含各类敏感信息和商业价值信息等的流动的“新石油”,是涉及国家安全的战略资产。
  随着Web 2.0理念的逐渐深入和社会网络的欣欣向荣,电子商务正在向着社会化商务 (social commerce)过渡。大型电子商务系统的用户和交易积累数据量和增量已经相当惊人,如淘宝每天新增数据量已超过20TB;社会网络则已成为全民盛宴,如全球最大的社会网络Facebook注册用户数达8亿多,成为排在中国和印度之后的全球人口第三大社会。融合社会网络的社会化商务比传统电子商务更为复杂,更迫切需要借助面向多源异构大数据的商务智能技术,才能有效实现对海量用户的客户关系管理,进行最有效的口碑营销和精准广告投放,并实现快速准确的战略和战术决策。
  二 现有研究基础和条件
  近年来,我们在数据挖掘、社会网络分析及商务智能应用做了大量的基础研究工作,具体包含以下几个方面:
  方向一:数据挖掘
  我们对余弦兴趣模式挖掘进行了深入研究,证明了余弦兴趣度满足条件反单调性 (CAMP, Conditional Anti-Monotone Property),进而提出基于FP树的余弦兴趣模式挖掘方法CosMinert,给出CosMinert挖掘余弦兴趣模式的例子,CosMinert能同时利用支持度和余弦兴趣度进行剪枝,大幅度提升了余弦兴趣模式挖掘的效率,并能有效发现稀有的兴趣模式。
  方向二:社会计算
  在对大规模社会网络抽取问题开展研究后,提出近似等价结构(Asymptotically Equivalent Structure, AES)来刻画局部结构,近似等价结构与其他等价结构的思想类似:公共邻居越多的节点越相似,这些节点组成紧耦合局部结构。抽取出的点就定义为被近似等价结构包含的节点。AES定义减轻了挖掘等价结构、clique的计算复杂性,因为挖掘 AES可以归化为余弦兴趣模式挖掘,从而借助于研究成果CosMinert来解决。
  方向三:數据及系统安全
  我们对推荐系统托攻击(shilling attack)检测进行深入全面的研究,这对提高系统安全性和健壮性具有重要意义。首先,分析了十种类型托攻击对不同协同过滤算法产生的危害性,定义托攻击检测的一系列指标,提出一种特征选择算法,这种特征选择方法能有效提高监督学习检测器的性能。其次,提出一种基于半监督学习的推荐系统托攻击检测算法,使用朴素贝叶斯分类器作为初始分类器,再用EM-算法来改进分类器。
  三 主要研究内容
  (1) 面向社会化商务应用的NoSQL数据库管理关键技术
  社会化商务应用外延极广,将涉及大规模多源异构数据。研究内容致力于解决社会化商务涉及到的多源异构大数据的存储问题,RDBMS仅能满足传统商务交易数据存储需求,对于大部分NoSQL类型的数据,需借助于NoSQL数据库。大数据存储的基础上,集成大数据预处理和分析的共性模块,结合计算模型,高效提供大数据共性计算服务。
  A. 社会化商务需求分析
  社会化商务系统是一个多源异构复杂系统,必须广泛借助商务智能技术才能实现其社会化战略。本研究立足于两个典型社会化商务应用需求展开:1) 推荐系统:除了利用用户评分或产品属性实现传统的协同过滤或基于内容的推荐外,更重要的是结合社会网络信息进行社会化推荐,而这就需要跨平台大数据的联合分析;2) 网络口碑营销:借助商品评论系统,企业实现了初步的口碑营销,但借助联系更为紧密的消费者社会网络,企业则可以实现广告的精准投放和无缝的客户关系管理,从而实现真正的网络口碑营销。
  B. NoSQL分布式数据库数据模型及索引结构设计
  电子商务交易数据可以利用RDBMS进行管理,但对于文本数据、图数据、点击流数据等半/无结构化数据,则需诉诸于NoSQL技术。各类NoSQL技术在设计的时候,考虑了一系列新的原则,首要的原则就是如何对大数据进行高效、可扩展的存取操作,这对于微博平台等写入操作密集的应用而言尤为重要。目前较为流行的NoSQL数据模型包括键/值模型,以及基于键/值模型的列存储模型和文档存储模型。尽管这些数据模型都较好地满足了可扩展性要求,但和关系模型相比仍存在许多数据管理方面的不足,如对查询操作的支持较弱、索引结构较为复杂等。
  C. 大规模异构数据预处理技术
  大规模异构数据来源于多个数据源的未被加工、高维、冗余、含有噪音且非均匀分布的复杂数据,在数据模型、含义、模式、结构和语义上存在不一致性和冲突,因此需要研究大规模异构数据预处理技术,为进一步实施挖掘和分析奠定基础。
  (2) 适应大数据计算的数据挖掘、分析、处理关键技术
  传统数据挖掘技术更关注解决模型学习问题,与底层的数据管理衔接不紧。但当面对多源异构半结构化、非结构化大数据时,大规模数据迁移成本极高、完全内存计算容易导致空间不足,因此,亟需对传统的数据挖掘技术进行重新设计,使之适应大数据计算。本部分将沿着两条途径解决这一难题:1) 从内在角度,研究高扩展性数据挖掘算法;2) 从外在角度,借助于分布式计算框架,扩展现有典型框架包括BSP和MapReduce,使之更加适合大数据的挖掘与分析。
  A. 高扩展性数据挖掘算法研究
  针对大数据规模大、更新快的两个特征,需着重如何将完全基于内存的、迭代的批量算法调整为基于磁盘的、增量的算法。同时,商务智能的实现依赖于分类、聚类、关联规则等不同方面的数据挖掘算法,而且并不是每种算法都适合于向基于磁盘的、增量的算法扩展。
  B. 基于磁盘存储的扩展BSP模型设计
  BSP将待处理数据存储在内存,清晰分割计算任务和通信任务,提供一种可编程性极佳的分布存储MIMD计算模型,特别适于大数据高性能分析。很多实际系统如Pregel、Giraph、Hama等,都是基于BSP开发的。尽管BSP在迭代计算控制和可编程性方面具有优势,但是,BSP目前仅支持内存存储数据,缺乏对磁盘存储数据的支持,这是制约BSP用于大数据计算的关键因素。
  C. 面向大数据的MapReduce存储优化与数据类型支持
  与BSP模型不同,MapReduce将待处理数据存储在分布式文件系统,将作业分为本地计算的Map任务,以及合并Map任务结果的Reduce任务,MapReduce因其高度的可扩展性和容错性呈现出强大的生命力。MapReduce设计初衷是处理半/无结构化数据,传统商务交易数据却利用结构化模型存储,而很多应用经常需综合使用结构化和半/无结构化数据。因此,需要研究MapReduce支持的数据类型扩展机制。同时,还需对MapReduce存储优化展开研究。
其他文献
在整个电力系统中,电气设备的状态可以分为三种:运行状态、备用状态及检修状态,将电气设备从一种状态转变为另一种状态的过程叫做倒闸,所实施的操作行为也就称之为倒闸操作。在倒
近年来,各大高校紧跟信息化的步伐,不管是在多媒体数量还是在系统设备功能以及在使用量上,都得到了不断的提升,这就需要切实加强多媒体教室的管理。本文基于信息化建设的视角,对当
一、镀锌线生产工艺及分析仪配置情况简介  镀锌线加热炉中充满的是一定配比的氮气和氢气的混合气体。如果加热炉内氧含量过高将导致带钢在加热过程中变蓝、化学活性增加;如果加热炉内氢含量高将会发生加热炉爆炸的特大安全事故,可见加热炉气体分析仪系统的稳定性、准确性对于保证生产安全,提高产品质量以及提高生产自动化程度都有非常重要的意义。  镀锌线分析仪使用的采样方式是利用现场氮气气源作为引射气,在整个采样系统
期刊
推翻蒙元统治基础上建立起来的明朝,在“法祖汉唐”思想的指导下,统治者对《贞观政要》一书给予了充分的重视,因此该书对明代的皇室教育、史籍编纂、书籍刊刻等产生了重大影
摘 要: 本文反映了作者在近三年内亲身体验美国、英国、澳大利亚等国著名学府,零距离接触各高校图书馆工作人员,他们对读者人文关怀深受启发,有感而发的纯感悟性较强的随笔浅谈。其后作者重点介绍美国新泽西州罗格斯大学的感悟。  关键词: 外国图书馆与国内图书馆比较  笔者有幸在美国逗留了3个多月,并重点对Rutgers(罗格斯)大学图书馆进行了体验学习,与该校的图书馆管理人员进行了相关访谈。国情不同,东西
期刊
随着经济和社会的不断发展和能源发展策略的转变,人们对电的依赖性越来越强,同时供电企业的供电能力、服务水平的要求也日趋增加,但在电网运行、电网建设和升级改造过程中,不可避免会出现局部频繁停电现象,影响用电企业的正常生产和居民客户的日常生活。根据某地区客户服务数据显示,由于频繁停电引起客户投诉的比例已占到了该地区投诉总量的30%左右,成为名副其实的投诉重灾区。因此,如何控制配电网频繁停电现象,建立频繁
期刊
国立北平图书馆源自于清朝末期的京师图书馆,先后经历了清末时期初创、民国初期发展、抗战时期保护和解放前夕维持等四个主要阶段,演绎了一场艰难坎坷的发展历程。 The Nati
中国日报网2月14日电(高琳琳)据英国《每日电讯报》13日报道,科学家正在研究一项10分钟内仅靠唾液(涎液)在家即可完成的癌症检测。美国加州大学肿瘤学华裔教授大卫·王(David
摘 要: 将MOOC模式引入大学物理教学中,可以弥补现今传统大学物理课堂的很多不足之处,大大提高整体教学水平。但是MOOC并不能替代课堂教学。老师应该充分利用MOOC平台的特点和优势辅助课堂教学。  关键词: MOOC;大学物理;教学模式  MOOC又称慕课,是英文Massive Open Online Course的缩写,英文直译为“大规模公开在线课程”,是新近涌现出来的一种在线课程开发模式。随