基于SparkSQL的海量数据仓库设计与实践

来源 :2017中国数据库技术大会 | 被引量 : 0次 | 上传用户：gigitsang

【摘要】

：

SparkSQL多源数据整合能够同时分析不同的数据源中的数据，根据不同的SQL自动选择合适的数据源，同时分析结果写入合适的数据源。

【作者】

：

李振炜

【机构】

：

360大数据基础架构团队

【出处】

：

2017中国数据库技术大会

【发表日期】

：

2017年8期

【关键词】

：

数据仓库计算引擎结构化查询语言数据整合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

SparkSQL多源数据整合能够同时分析不同的数据源中的数据，根据不同的SQL自动选择合适的数据源，同时分析结果写入合适的数据源。

其他文献

会讲故事的图表-高交互数据展现

商业智能分析中常用到的分析方法有预警分析、进度分析、纵向对比、横向对比、各种对比等对比分析，有构成分析和杜邦分析等结构分析，还有透视分析以及其他分析方法。

会议

商业数据图表分析交互性

京东弹性数据库

弹性数据库在线动态扩容技术提高了系统可用性、稳定性，提供了数据库日志消费、中间件处理、自动运维管理等一站式技术方案，兼容原有应用系统，利于系统升级、迁移。

会议

电子商务弹性数据库日志订阅服务备份恢复

开源MPP数据库的不二之选:Pivotal Greenplum 5.0

介绍了Pivotal Greenplum 5.0开放源代码数据库的高速数据加载、多态存储、并行执行、敏捷开发方法学等内容。

会议

开源数据库大规模并行处理数据加载多态存储敏捷开发

宽表列存储在大数据分析中的应用与优化

相对于行存，列存极大提高了宽表上分析负载的I/O性能，当一个查询只访问1000列中的20个时，无须读取整个数据块，最大限度减少了所读取的数据量。

会议

大数据宽表设计列存储读取数据量

扩展Spark引擎支持MPP计算场景--替换大规模企业级传统数据仓库

传统企业级数据仓库向大数据平台转型,解决传统数据应用问题,解决大数据计算问题,解决数据实时性处理问题.

会议

大数据大规模并行处理计算引擎实时性

我的MySQL DBA之路

数据库管理员关键原理机制要深入理解，官方文档必须通读至少一遍，有条件的话可阅读源码加强理解，带团队、带新人，逼迫自己提高，要有适合业务需求的DB管理系统。

会议

计算机企业数据库管理员职业能力

利用DTRACEPG定位Oracle高并发堵塞案例

DTrace是一个动态跟踪工具,用来在生产和试验性系统上找出瓶颈的工具,可以通过D脚本语言创建定制程序.

会议

数据库堵塞故障DTrace技术定位精度

链家网数据挖掘技术实践--估价系统的前世今生

估价系统的难点及挑战是交易数据的稀缺、稀疏和时变，由于数据的稀疏性，很难通过统计的方法去除异常挂牌/成交，每一条成交和挂牌都十分重要，为参考均价添加平滑:当历史数据和新数据发生冲突时，选择相信新数据，但每天只信一点点，等待业务部门复核数据。

会议

房地产企业数据挖掘稀疏性时变性

魅族广告平台算法与模型解析

魅族是中国智能手机创新与设计的领先者，多媒体终端行业知名品牌，以生产智能手机的多媒体终端的科技公司，专注多媒体终端研发与生产的高科技企业。

会议

手机广告用户画像点击通过率机器学习

如何基于Alluxio提升Spark和Hadoop HDFS的数据访问性能与系统稳定性

首先介绍了Alluxio应用场景与1.4版本的新特性，然后阐述了基于Alluxio的Spark DataFrame/RDD性能调优内容，最后论述了基于Alluxio提升HDFS集群的性能和SLA稳定性。

会议

计算引擎分布式系统基础架构Alluxio技术数据访问性能稳定性

基于SparkSQL的海量数据仓库设计与实践

其他学术论文