链家网数据挖掘技术实践--估价系统的前世今生

来源 :2017中国数据库技术大会 | 被引量 : 0次 | 上传用户:nice_hope
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
估价系统的难点及挑战是交易数据的稀缺、稀疏和时变,由于数据的稀疏性,很难通过统计的方法去除异常挂牌/成交,每一条成交和挂牌都十分重要,为参考均价添加平滑:当历史数据和新数据发生冲突时,选择相信新数据,但每天只信一点点,等待业务部门复核数据。
其他文献
飞谷私有云解决大数据开发者本地搭建大数据环境的不稳定问题,解决公有云搭建hadoop后开发运维管理的不方便问题,解决学员个性化学习实战项目多hadoop版本环境共享数据源问题。
适用于云端的Oracle Database 12c R2使用在线克隆,刷新和在线迁移实现敏捷,支持4096 PDBs,对于一些全球范围的应用程序能使用原生的数据分片实现弹性扩展.
在基于互联网环境的创新业务场景中逐渐开始应用开源数据处理技术,MySQL,Redis,MongoDB三大技术为主,IMDG类为辅,单一集群规模不大(~10节点以内),但随业务规模的集群数量较多,通常运行环境与云环境(IaaS)关联度较高,相比于性能,更关注高可用和安全性。
商业智能分析中常用到的分析方法有预警分析、进度分析、纵向对比、横向对比、各种对比等对比分析,有构成分析和杜邦分析等结构分析,还有透视分析以及其他分析方法。
弹性数据库在线动态扩容技术提高了系统可用性、稳定性,提供了数据库日志消费、中间件处理、自动运维管理等一站式技术方案,兼容原有应用系统,利于系统升级、迁移。
介绍了Pivotal Greenplum 5.0开放源代码数据库的高速数据加载、多态存储、并行执行、敏捷开发方法学等内容。
相对于行存,列存极大提高了宽表上分析负载的I/O性能,当一个查询只访问1000列中的20个时,无须读取整个数据块,最大限度减少了所读取的数据量。
传统企业级数据仓库向大数据平台转型,解决传统数据应用问题,解决大数据计算问题,解决数据实时性处理问题.
数据库管理员关键原理机制要深入理解,官方文档必须通读至少一遍,有条件的话可阅读源码加强理解,带团队、带新人,逼迫自己提高,要有适合业务需求的DB管理系统。
DTrace是一个动态跟踪工具,用来在生产和试验性系统上找出瓶颈的工具,可以通过D脚本语言创建定制程序.