切换导航
文档转换
企业服务
Action
Another action
Something else here
Separated link
One more separated link
vip购买
不 限
期刊论文
硕博论文
会议论文
报 纸
英文论文
全文
主题
作者
摘要
关键词
搜索
您的位置
首页
会议论文
基于SparkSQL的海量数据仓库设计与实践
基于SparkSQL的海量数据仓库设计与实践
来源 :2017中国数据库技术大会 | 被引量 : 0次 | 上传用户:gigitsang
【摘 要】
:
SparkSQL多源数据整合能够同时分析不同的数据源中的数据,根据不同的SQL自动选择合适的数据源,同时分析结果写入合适的数据源。
【作 者】
:
李振炜
【机 构】
:
360大数据基础架构团队
【出 处】
:
2017中国数据库技术大会
【发表日期】
:
2017年8期
【关键词】
:
数据仓库
计算引擎
结构化查询语言
数据整合
下载到本地 , 更方便阅读
下载此文
赞助VIP
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
SparkSQL多源数据整合能够同时分析不同的数据源中的数据,根据不同的SQL自动选择合适的数据源,同时分析结果写入合适的数据源。
其他文献
会讲故事的图表-高交互数据展现
商业智能分析中常用到的分析方法有预警分析、进度分析、纵向对比、横向对比、各种对比等对比分析,有构成分析和杜邦分析等结构分析,还有透视分析以及其他分析方法。
会议
商业数据
图表分析
交互性
京东弹性数据库
弹性数据库在线动态扩容技术提高了系统可用性、稳定性,提供了数据库日志消费、中间件处理、自动运维管理等一站式技术方案,兼容原有应用系统,利于系统升级、迁移。
会议
电子商务
弹性数据库
日志订阅服务
备份恢复
开源MPP数据库的不二之选:Pivotal Greenplum 5.0
介绍了Pivotal Greenplum 5.0开放源代码数据库的高速数据加载、多态存储、并行执行、敏捷开发方法学等内容。
会议
开源数据库
大规模并行处理
数据加载
多态存储
敏捷开发
宽表列存储在大数据分析中的应用与优化
相对于行存,列存极大提高了宽表上分析负载的I/O性能,当一个查询只访问1000列中的20个时,无须读取整个数据块,最大限度减少了所读取的数据量。
会议
大数据
宽表设计
列存储
读取数据量
扩展Spark引擎支持MPP计算场景--替换大规模企业级传统数据仓库
传统企业级数据仓库向大数据平台转型,解决传统数据应用问题,解决大数据计算问题,解决数据实时性处理问题.
会议
大数据
大规模并行处理
计算引擎
实时性
我的MySQL DBA之路
数据库管理员关键原理机制要深入理解,官方文档必须通读至少一遍,有条件的话可阅读源码加强理解,带团队、带新人,逼迫自己提高,要有适合业务需求的DB管理系统。
会议
计算机企业
数据库管理员
职业能力
利用DTRACEPG定位Oracle高并发堵塞案例
DTrace是一个动态跟踪工具,用来在生产和试验性系统上找出瓶颈的工具,可以通过D脚本语言创建定制程序.
会议
数据库
堵塞故障
DTrace技术
定位精度
链家网数据挖掘技术实践--估价系统的前世今生
估价系统的难点及挑战是交易数据的稀缺、稀疏和时变,由于数据的稀疏性,很难通过统计的方法去除异常挂牌/成交,每一条成交和挂牌都十分重要,为参考均价添加平滑:当历史数据和新数据发生冲突时,选择相信新数据,但每天只信一点点,等待业务部门复核数据。
会议
房地产企业
数据挖掘
稀疏性
时变性
魅族广告平台算法与模型解析
魅族是中国智能手机创新与设计的领先者,多媒体终端行业知名品牌,以生产智能手机的多媒体终端的科技公司,专注多媒体终端研发与生产的高科技企业。
会议
手机广告
用户画像
点击通过率
机器学习
如何基于Alluxio提升Spark和Hadoop HDFS的数据访问性能与系统稳定性
首先介绍了Alluxio应用场景与1.4版本的新特性,然后阐述了基于Alluxio的Spark DataFrame/RDD性能调优内容,最后论述了基于Alluxio提升HDFS集群的性能和SLA稳定性。
会议
计算引擎
分布式系统基础架构
Alluxio技术
数据访问性能
稳定性
其他学术论文